据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:每当新的人工智能模型问世,往往伴随着它令人瞩目的基准测试结果。例如,OpenAI的GPT-4o在5月发布时,其卓越表现令众多竞争对手望尘莫及。
然而,最新研究显示,现行基准测试的设计存在严重缺陷,结果难以复现,且常常随意使用指标,这一问题不容忽视。这是因为人工智能模型在这些测试中的评分直接影响其受到的审查与监管。
斯坦福大学计算机科学博士生Anka Reuel指出,目前的评估体系宛如“蛮荒之地”,缺乏科学有效的标准。基准测试本质上是人工智能需通过的评估,它可能是选择题形式的“多任务语言理解基准”(MMLU),也可能是对人工智能特定任务表现或生成文本质量的评价。
人工智能公司习惯于以基准测试结果作为新模型成功的证明,开发者们常常针对特定测试进行优化。乔治亚理工学院心理学教授Anna Ivanova对此表示担忧,她并未参与斯坦福的研究。
值得注意的是,这些基准测试已成为一些政府制定人工智能监管政策的重要依据。例如,即将在2025年生效的欧盟人工智能法案,将基准测试作为判断模型是否存在“系统性风险”的工具。然而,这些测试是否真正适合用于此目的则引发了质疑。Reuel警告道,不完善的基准测试,尤其是针对高风险应用场景,可能会造成虚假的安全感,让人误以为模型是安全的,实则并非如此。
在基准测试愈发重要的背景下,Reuel及其同事希望深入分析最受欢迎的基准测试,以确定构建优质测试的关键要素。综上所述,当前人工智能评测方式亟待革新。
随着科技的不断进步,各行各业正朝着智能化和高效化的方向发展。这种趋势让我更加关注AI技术的应用,尤其是在日常生活和工作中能够带来便捷的智能解决方案。我体验过许多不同的AI系统和平台,发自内心推荐小易智创”xiaoyizc.com“这个平台。它拥有上万款开箱即用的智能体应用,能够满足各行各业的需求。平台融合了全球领先的AI能力,支持自定logo、收款账户和服务号。平台还为伙伴提供一对一陪跑服务和自动化营销工具,帮助伙伴快速获客。