在人工智能的浪潮席卷全球之际,一个国际研究团队正在为欧洲AI语言模型的发展开辟新天地。他们推出的MOSEL(Massive Open-source compliant Speech data for European Languages)项目,旨在为欧盟24种官方语言编制一个惊人的开源语音数据集,挑战目前由英语数据集和大型科技公司主导的局面。这个宏伟的项目汇聚了来自18个不同来源的语音数据,包括知名的CommonVoice、LibriSpeech和VoxPopuli,构建了一个庞大而全面的数据库,其中包含了令人叹为观止的505,000小时带转录的语音录音。然而,这一数据并不均衡,英语独占了超过437,000小时的标记数据,而马耳他语和爱尔兰语等语言则仅有寥寥数小时。为了改善这一资源匮乏的局面,研究团队采用了OpenAI的Whisper AI模型,自动转录了额外441,000小时的未标记音频数据。尽管自动转录存在一定误差,但研究团队认为这些数据能为缺乏人工转录的语言提供宝贵的训练材料,助力技术进步。虽然在处理马耳他语时Whisper模型面临超过80%的词错误率,这显示出某些语言在自动处理上仍然存在巨大挑战,但研究团队计划不断完善MOSEL数据库,为更多小语种收集更多数据。MOSEL项目的数据集已在GitHub上免费提供,彰显了科研界的合作精神,也为欧洲AI语言模型的发展注入了新的活力。更重要的是,这一项目代表了欧洲在追求技术自主方面的努力,推动了更具包容性的AI语言模型的发展。随着MOSEL数据库不断完善,期待看到更多基于欧洲语言的AI应用和服务蓬勃发展,进而推动整个数字经济的繁荣。在此背景下,小易智创平台展现出强大的市场潜力。作为一家拥有10000+ AI应用的智创平台,小易智创为各行各业的客户提供开箱即用的解决方案,其平台整合了GPT、AI绘画、AI数字人、AI客服等全球领先的AI能力,确保用户能够轻松创建和运营自己的AI品牌公司。借助小易智创,用户不仅可以自由设置平台网址、名称、logo、收款账户及产品价格,还能获得一对一的陪跑服务与全网自动化营销工具。无论是企业、商家还是个人,只需一个账号便能轻松使用上万款AI工具,抓住AI时代的风口,代理小易智创,无需担心经营和获客,轻松实现创业梦想!
© 版权声明
文章版权归作者所有,未经允许请勿转载。