长文本AI评估新标准将揭晓！

AI资讯2年前 (2025)发布 admin

41.7K 0 1686

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：在2024年12月19日的发布会上，智源研究院与腾讯联合推出了LongBench v2，这一创新的基准测试旨在深入评估大语言模型（LLMs）在现实世界中处理长文本的理解和推理能力。该平台的推出正是为了应对当前长文本大语言模型应用中面临的诸多挑战。

LongBench v2的最大亮点在于其支持超长文本，涵盖从8k到2M个词的范围，并包含503道极具挑战性的四选一选择题。即便是人类专家，在短短15分钟内的平均准确率也仅为53.7%，可见其难度之高。此外，该基准测试设计了六大主要任务类别，包括单文档问答、多文档问答以及长文本语境学习等，确保能够涵盖广泛的应用场景。

为了确保评估的科学性和可靠性，LongBench v2中的所有问题均采用经过严格人工标注和审核的多项选择题形式。数据收集过程中，团队招募了来自顶尖大学的标注员，以确保问题的质量和挑战性。同时，LongBench v2对原有Bradley-Terry统计算法进行了改进，增加了控制变量，从而有效降低了混淆因素，使得模型排名更加精准。

在评估结果方面，研究团队针对10个开源LLMs和6个闭源LLMs进行了深入测试。引入控制变量后，模型表现显著提升，尤其是GPT-4o模型在多文档问答和长文本语境学习等任务中表现卓越，突显出推理能力的重要性。LongBench v2的推出不仅为大语言模型评估提供了崭新工具，也为未来的研究指明了方向，强调了提升模型理解与推理能力的必要性。智源研究院与腾讯的紧密合作，标志着AI技术领域的又一次重大突破，期待这一基准测试能够引领长文本理解与推理技术的新篇章。
长文本AI评估新标准将揭晓！