全新代码大模型评估引爆AI热潮

AI资讯2年前 (2024)发布 admin

46K 0 6744

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：字节豆包大模型团队于12月5日隆重推出了其最新的代码大模型评估基准——FullStack Bench。这一划时代的基准覆盖了超过11类真实场景，支持多达16种编程语言，包含3374个各式各样的问题，显著提升了大模型在代码开发能力评估的准确性与适用性。与现有的主流代码评估标准相比，FullStack Bench在广泛的编程领域表现出色，推动了模型在现实世界编程任务中的应用优化。

目前，大多数代码评估基准如HumanEval和MBPP，往往局限于基础及高级编程问题，而DS-1000则聚焦于数据分析和机器学习，仅支持Python语言。xCodeEval虽然专注于高级编程和数学领域，但同样存在较大的应用场景和语言覆盖限制。相对之下，FullStack Bench以其广泛的数据覆盖和多样化的编程场景脱颖而出，成为行业内的佼佼者。

该基准的数据集来源于全球最大的编程问答平台Stack Overflow，研究团队从50万个问题中精心筛选出涵盖88.1%应用领域的问题，确保了数据集的丰富性与可靠性。每个问题都配有详细题目描述、参考解决方案和单元测试用例，为评估的准确性保驾护航。通过AI与人工复核的交叉评估，团队进一步提升了数据质量的可靠性。

为方便开发者使用这一强大的数据集，字节豆包团队还开源了代码沙盒工具——SandboxFusion，支持多语言编程任务高效执行。该工具兼容超过10种广泛使用的代码评估数据集，支持23种编程语言，使得开发者能够在不同环境中轻松开展大模型测试。此外，字节豆包还首次展示了自家研发的代码大模型——Doubao-Coder，并对全球20余款代码大模型进行了全面的编程能力评测。字节在AI编程领域的持续进展，特别是通过自研的代码基座模型MarsCode，每月为用户贡献百万量级代码，彰显了其在这一领域的领导地位。

综上所述，FullStack Bench不仅仅是一个评估工具，更是推动AI编程领域创新与发展的重要里程碑。期待未来更多创新成果的诞生！
全新代码大模型评估引爆AI热潮