据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:哈佛大学于周四震撼宣布,即将公开一份包含近百万本公共领域图书的高质量数据集,这一举动无疑将为AI行业带来巨大变革!由哈佛大学新成立的机构数据倡议(Institutional Data Initiative)创建,并获得微软和OpenAI的资助,这一数据集的规模令人瞩目,约为用于训练Meta Llama等AI模型的臭名昭著的Books3数据集的五倍!
该数据集收录了Google图书项目扫描的不再受版权保护的作品,涵盖了各类经典文学、鲜为人知的数学教科书以及威尔士语袖珍词典,足以让每个热爱知识的人垂涎欲滴!机构数据倡议执行主任格雷格·莱珀特表示,该项目旨在为公众提供一个高度提炼和精选的内容存储库,尤其是让小型AI参与者和个人研究者也能参与竞争,创造一个更为公平的环境。
莱珀特还指出,新的公共领域数据库可以与其他许可材料结合使用,以打造出更具竞争力的人工智能模型。他形象地将其比作Linux,认为它将成为众多领域的基础操作系统。同时,微软知识产权副总裁伯顿·戴维斯强调,公司的支持符合其为AI初创公司创造“可访问数据池”的信念,这一池资源以公众利益为导向。
在数十起关于使用受版权保护的数据训练AI的诉讼正在审理之际,AI公司的未来也面临不确定性。哈佛数据库的推出,无疑是对这种不确定性的积极回应,预示着公众对公共领域数据集的巨大需求。此外,机构数据倡议还与波士顿公共图书馆合作,扫描数百万篇来自不同报纸的公共领域文章,展现了其广泛的合作意愿。
此项数据集的具体发布方式尚待公布,但毫无疑问,它将引领新一轮人工智能的浪潮,推动整个行业的发展。未来,我们将见证这一开创性的举措如何改变AI技术的格局!