AI能力评测新纪元来临！

AI资讯2年前 (2024)发布 admin

64.7K 0 7587

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：近日，在《我的世界》这一虚拟平台上，一场别开生面的AI能力评测活动引发了广泛关注。新旧版本的Claude3.5Sonnet在游戏中展开了一场激烈的建筑PK，展现出截然不同的能力表现，其中新版本（暂称”Sonnet3.6″）的出色表现尤为引人瞩目。此项评测活动由开发者adi发起，并被戏称为”唯一可靠的评测基准”。研究者Aidan McLau认为，这一方法恰到好处地满足了当今对AI评测的需求，他指出审美能力与智力水平之间存在密切关联。该项目很快获得开源社区的热情支持，相关代码已在GitHub上线。

测试结果显示，各大AI模型均展现出独特的“个性”：Sonnet3.6在创意性方面略胜一筹，赢得了2000多名网友的投票；而OpenAI的o1-preview虽然构建速度较慢，但在还原真实建筑（如泰姬陵）时表现极其出色；o1-mini则未能完成相关任务；Llama3405B则构建了象征自我的“火坑上的钻石墙”；阿里的Qwen2.5-14B同样展现出不俗实力。值得注意的是，这些AI在游戏中的建造过程并不依赖视觉理解或直接控制输入设备，而是通过文本形式提供上下文并生成操作指令，犹如下盲棋。技术实现主要依赖于mineflayer开源库，将AI生成的指令转换为可执行的API调用；以及mindcraft开源库，提供通用提示词和示例，支持各类模型接入游戏。

项目组计划进一步完善这一评测机制，打造类似Lmsys竞技场的评分系统，采用Elo算法根据人类用户投票进行排名。值得一提的是，完整测试环境仅需15分钟即可搭建完成。这种新颖的评测方式不仅展示了AI的创造力，也为大模型能力的客观评估提供了全新视角。正如o1-preview在自由发挥时选择搭建机器人并拼出”GPT”字样，AI似乎已经在这个虚拟世界中展现出其独特的“个性”。随着更多模型加入测试，这个经典游戏正在成为见证AI发展的独特平台。

在未来，我们或许会看到更多激动人心的AI创造！
AI能力评测新纪元来临！