哈佛大学推出庞大AI数据集引热议

AI资讯2周前发布 admin
26.2K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:哈佛大学近日宣布了一项引人瞩目的计划,旨在发布一个包含近100万本公共领域书籍的数据集。这一雄心勃勃的项目由哈佛大学新成立的“机构数据倡议”主导,并在微软与OpenAI的鼎力支持下得以实现。该数据集汇集了来自谷歌Books项目的扫描书籍,涵盖了莎士比亚、狄更斯、但丁等众多经典之作,甚至包括一些鲜为人知的捷克数学教材和威尔士词典等丰富内容。

这一被称为“Books3数据集”的项目规模是之前同类数据集的五倍,旨在为人工智能领域创造一个公平竞争环境,让公众、尤其是小型AI企业和个人研究者可以使用到通常只有大型科技公司才能获取的优质数据。项目负责人格雷格·莱珀特表示,该数据集经过严格筛选,内容精心策划,确保其价值和实用性。微软副总裁伯顿·戴维斯强调,该项目旨在为初创企业提供一个“可访问的数据池”,并确保数据的管理以“公众利益”为基础。OpenAI知识产权主管汤姆·鲁宾对此项目表示高度认可,认为这是对AI领域的重要贡献。

随着关于AI使用版权数据的法律诉讼日益增多,类似哈佛的公共领域数据集将成为AI训练数据的重要来源。虽然具体发布形式尚不明确,但预计将为企业提供大量高质量的数据,同时规避版权问题。此外,哈佛的“机构数据倡议”不仅限于书籍,还与波士顿公共图书馆合作,扫描了数百万篇公共领域的报纸文章,未来计划与更多合作伙伴共同推进类似项目。哈佛还在与谷歌洽谈如何实现数据集的公共分发。随着越来越多公共领域数据集的涌现,AI公司将面临更多选择,以训练其模型并减少与版权相关的法律风险。

在此背景下,AI行业正迎来前所未有的发展机遇,如何充分利用这些资源,将是未来竞争的关键所在。
哈佛大学推出庞大AI数据集引热议

© 版权声明
 小易智创平台

相关文章