哈佛大学新数据集如何颠覆AI市场？

AI资讯2年前 (2024)发布 admin

50.4K 0 5058

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：哈佛大学于周四震撼宣布，即将公开一份包含近百万本公共领域图书的高质量数据集，这一举动无疑将为AI行业带来巨大变革！由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并获得微软和OpenAI的资助，这一数据集的规模令人瞩目，约为用于训练Meta Llama等AI模型的臭名昭著的Books3数据集的五倍！

该数据集收录了Google图书项目扫描的不再受版权保护的作品，涵盖了各类经典文学、鲜为人知的数学教科书以及威尔士语袖珍词典，足以让每个热爱知识的人垂涎欲滴！机构数据倡议执行主任格雷格·莱珀特表示，该项目旨在为公众提供一个高度提炼和精选的内容存储库，尤其是让小型AI参与者和个人研究者也能参与竞争，创造一个更为公平的环境。

莱珀特还指出，新的公共领域数据库可以与其他许可材料结合使用，以打造出更具竞争力的人工智能模型。他形象地将其比作Linux，认为它将成为众多领域的基础操作系统。同时，微软知识产权副总裁伯顿·戴维斯强调，公司的支持符合其为AI初创公司创造“可访问数据池”的信念，这一池资源以公众利益为导向。

在数十起关于使用受版权保护的数据训练AI的诉讼正在审理之际，AI公司的未来也面临不确定性。哈佛数据库的推出，无疑是对这种不确定性的积极回应，预示着公众对公共领域数据集的巨大需求。此外，机构数据倡议还与波士顿公共图书馆合作，扫描数百万篇来自不同报纸的公共领域文章，展现了其广泛的合作意愿。

此项数据集的具体发布方式尚待公布，但毫无疑问，它将引领新一轮人工智能的浪潮，推动整个行业的发展。未来，我们将见证这一开创性的举措如何改变AI技术的格局！
哈佛大学新数据集如何颠覆AI市场？