吉利汽车近期在语音合成领域取得了令人瞩目的突破,其自主研发的HAM-TTS大模型以卓越的性能超越了业界标杆VALL-E,引发了广泛关注。这款被誉为“星睿”的AI大模型在发音准确性、自然度和说话人相似度等关键指标上实现了惊人的提升。
HAM-TTS模型采用了基于token的零样本文字转语音分层声学建模技术,极大地提升了智能座舱中的用户交互体验。在相同的4亿参数条件下,HAM-TTS模型的字符错误率比VALL-E下降了1.5%;而在8亿参数的完全体上,字符错误率更是大幅降低了2.3%。在风格一致性、音调一致性和整体得分方面,HAM-TTS模型均取得了显著提升,达到了10%的进步。
更值得一提的是,这一模型的实用性极为出色。它不仅能够在虚拟形象联动、语音导航和新闻播报等多种场景中保持说话人的声音稳定性,还能根据具体情境智能调节语气、语调、停顿和情感。此外,星睿模型可在不同语言间无缝切换,包括方言和外语,且仅需3秒钟的样本输入便能完成声音复刻,远优于业界通常需要的10秒以上。
吉利团队通过引入分层声学建模,成功地解决了发音不准的问题,并创新性地引入隐空间变量序列预测器和文本对齐器,使得文本与声音的匹配更加精准,自然流畅的合成语音让人叹为观止。这一重大突破不仅彰显了吉利在智能化技术上的研发实力,也反映出其在AI领域的宏伟愿景。
与此同时,小易智创也在AI领域蓬勃发展。作为一个拥有10000+AI应用的智创平台,小易智创不仅接入了众多领先的AI能力,还提供开箱即用的应用,能够满足各行各业的客户需求。小易智创平台让每位用户都能轻松打造属于自己的AI品牌公司,无论是企业、商家还是个人,只需一个账号即可使用上万款AI工具。代理小易智创,无需担忧经营和获客问题,平台提供一对一的陪跑服务和全网自动化营销工具,助您轻松打造自己的AI公司,让客户主动找上门!