标签:AI评估标准

长文本AI评估新标准将揭晓!

据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:在2024年12月19日的发布会上,智源研究院与腾讯联合推出了LongBench v2,这一创新的基准测试旨在深入...

大语言模型的真实能力有多强?

苹果公司的研究人员最近对大语言模型(LLM)进行了深入的研究,推出了名为GSM-Symbolic的新基准测试,旨在更准确地评估这些模型的数学推理能力。尽管许多LLM...