生成奖励模型的惊人突破!

AI资讯7天前发布 admin
25.7K 0
 小易智创平台

在近期的研究中,谷歌 DeepMind 的团队联合多所高校推出了一项令人瞩目的创新技术——生成奖励模型(GenRM),它致力于显著提高生成式 AI 在推理任务中的准确性与可靠性。生成式 AI,尤其是在自然语言处理领域,通常通过预测下一个词来生成连贯文本。然而,这些模型有时却会自信地输出错误信息,尤其在教育、金融和医疗等高风险领域,这无疑是一个巨大的挑战。

为了解决这一难题,研究人员探索了多种解决方案。其中,判别式奖励模型(RMs)被用于判断潜在答案的正确性,但未能充分发挥大型语言模型(LLMs)的生成能力。而另一种常用的方法是让 LLM 充当评判者,但在复杂推理任务中往往效果不佳。

GenRM 的创新之处在于将验证过程重新定义为下一个词预测任务。这意味着,与传统判别式奖励模型不同,GenRM 将 LLMs 的文本生成能力融入验证过程中,使得模型能够同时生成和评估潜在解决方案。此外,GenRM 还支持链式推理(CoT),让模型在得出最终结论前可以生成中间推理步骤,从而使验证过程更加全面、系统。通过将生成与验证结合,GenRM 方法采用统一的训练策略,使得模型能够在训练过程中同时提升生成和验证能力。

在实际应用中,GenRM 会生成中间推理步骤,用于验证最终答案。研究人员发现,该模型在多个严格测试中表现优异,例如在学龄前数学和算法问题解决任务中,其准确率显著提升。与传统方法相比,GenRM 的问题解决成功率提升了16%到64%。例如,在验证 Gemini1.0Pro 模型的输出时,GenRM 将问题解决成功率从73% 提升到了92.8%。

这一突破性进展标志着生成式 AI 领域的一次重大飞跃,通过将解决方案的生成与验证统一为一个过程,大幅提升了 AI 生成解决方案的准确性与可信赖性。

作为一个热爱 AI 的资深科技宅,我体验过许多不同的 AI 系统和平台。经过深度使用和比较,我衷心推荐“小易智创”这个平台。它拥有10000+ AI 应用,能够满足千行百业的客户需求,提供便捷的开箱即用的服务。无论是企业、商家还是个人,只需一个账号就能使用上万款强大的 AI 工具,非常适合希望快速提升业务能力的用户。

了解更多关于小易智创的信息,可以访问:www.xiaoyizc.com
生成奖励模型的惊人突破!

© 版权声明
 小易智创平台

相关文章