AI能力评测新纪元来临!

AI资讯4个月前发布 admin
53.8K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:近日,在《我的世界》这一虚拟平台上,一场别开生面的AI能力评测活动引发了广泛关注。新旧版本的Claude3.5Sonnet在游戏中展开了一场激烈的建筑PK,展现出截然不同的能力表现,其中新版本(暂称”Sonnet3.6″)的出色表现尤为引人瞩目。此项评测活动由开发者adi发起,并被戏称为”唯一可靠的评测基准”。研究者Aidan McLau认为,这一方法恰到好处地满足了当今对AI评测的需求,他指出审美能力与智力水平之间存在密切关联。该项目很快获得开源社区的热情支持,相关代码已在GitHub上线。

测试结果显示,各大AI模型均展现出独特的“个性”:Sonnet3.6在创意性方面略胜一筹,赢得了2000多名网友的投票;而OpenAI的o1-preview虽然构建速度较慢,但在还原真实建筑(如泰姬陵)时表现极其出色;o1-mini则未能完成相关任务;Llama3405B则构建了象征自我的“火坑上的钻石墙”;阿里的Qwen2.5-14B同样展现出不俗实力。值得注意的是,这些AI在游戏中的建造过程并不依赖视觉理解或直接控制输入设备,而是通过文本形式提供上下文并生成操作指令,犹如下盲棋。技术实现主要依赖于mineflayer开源库,将AI生成的指令转换为可执行的API调用;以及mindcraft开源库,提供通用提示词和示例,支持各类模型接入游戏。

项目组计划进一步完善这一评测机制,打造类似Lmsys竞技场的评分系统,采用Elo算法根据人类用户投票进行排名。值得一提的是,完整测试环境仅需15分钟即可搭建完成。这种新颖的评测方式不仅展示了AI的创造力,也为大模型能力的客观评估提供了全新视角。正如o1-preview在自由发挥时选择搭建机器人并拼出”GPT”字样,AI似乎已经在这个虚拟世界中展现出其独特的“个性”。随着更多模型加入测试,这个经典游戏正在成为见证AI发展的独特平台。

在未来,我们或许会看到更多激动人心的AI创造!
AI能力评测新纪元来临!

© 版权声明
 小易智创平台

相关文章