HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。
数据统计
数据评估
关于HELM特别声明
本站AI导航 ai123.cn提供的HELM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI导航 ai123.cn实际控制,在2024年3月10日 上午8:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI导航 ai123.cn不承担任何责任。