新一代AI模型评测平台震撼升级！

AI资讯2年前 (2025)发布 admin

47.6K 0 2529

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：最近，上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联手推出的前沿大模型评测平台CompassArena迎来了令人振奋的升级。此次升级旨在为广大用户提供更加科学、全面的模型评估体验，自平台上线以来，吸引了大量热情的社区用户参与并贡献宝贵的数据支持。基于这些数据，CompassArena不断优化，提升用户体验。

此次改版的亮点之一是全新的Judge Copilot功能。该功能借助强大的评价模型Compass-Judger-1-32B-Instruct，为用户提供了前所未有的对话模型表现分析能力。无论是多维度评价、实时对比，还是智能决策辅助，均能显著提升主观评测的精准度和高效性。

此外，榜单算法经过全面升级，对原有的Bradley-Terry统计算法进行了深度改进。通过引入控制变量，有效降低混淆因素的干扰，使得模型排名更加科学、准确。令人期待的是，此次升级还新增了20多个全新模型，这些模型包括来自国内外商业机构和开源项目，极大丰富了用户的对战选择。

CompassArena对Judge模型在实际应用中的表现给予高度重视，并积极收集用户反馈，以进一步提升Judge模型的综合能力和对齐效果。用户通过简单的“赞”和“踩”按钮，就能表达对Judge模型的评价，极大增强了互动性。

通过拟合包含控制变量的Bradley-Terry统计模型，CompassArena能够精准估计外在因素的影响程度，以几率比的形式展现，进一步提升了评测的科学性。此次升级迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和多款开源模型，赋予用户更为丰富的战斗体验。总之，这一升级将为用户带来空前的AI模型评测体验，让每一位参与者都能从中获益。
新一代AI模型评测平台震撼升级！