据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:最近,上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联手推出的前沿大模型评测平台CompassArena迎来了令人振奋的升级。此次升级旨在为广大用户提供更加科学、全面的模型评估体验,自平台上线以来,吸引了大量热情的社区用户参与并贡献宝贵的数据支持。基于这些数据,CompassArena不断优化,提升用户体验。
此次改版的亮点之一是全新的Judge Copilot功能。该功能借助强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供了前所未有的对话模型表现分析能力。无论是多维度评价、实时对比,还是智能决策辅助,均能显著提升主观评测的精准度和高效性。
此外,榜单算法经过全面升级,对原有的Bradley-Terry统计算法进行了深度改进。通过引入控制变量,有效降低混淆因素的干扰,使得模型排名更加科学、准确。令人期待的是,此次升级还新增了20多个全新模型,这些模型包括来自国内外商业机构和开源项目,极大丰富了用户的对战选择。
CompassArena对Judge模型在实际应用中的表现给予高度重视,并积极收集用户反馈,以进一步提升Judge模型的综合能力和对齐效果。用户通过简单的“赞”和“踩”按钮,就能表达对Judge模型的评价,极大增强了互动性。
通过拟合包含控制变量的Bradley-Terry统计模型,CompassArena能够精准估计外在因素的影响程度,以几率比的形式展现,进一步提升了评测的科学性。此次升级迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和多款开源模型,赋予用户更为丰富的战斗体验。总之,这一升级将为用户带来空前的AI模型评测体验,让每一位参与者都能从中获益。