LLaMA版o1项目背后的秘密

AI资讯2年前 (2024)发布 admin

25.3K 0 8430

最近，开源社区传来令人振奋的消息：上海AI Lab团队推出了LLaMA版o1项目，旨在重现OpenAI的奥数解题神器o1。这一激动人心的项目采用了前沿技术，如蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略，迅速引起了开发者的广泛关注。早在OpenAI的o1系列问世之前，上海AI Lab便开始探索利用蒙特卡洛树搜索来提升大型模型的数学能力。随着o1的发布，团队进一步优化算法，专注于数学奥赛问题，并将其作为OpenAI草莓项目的开源版本进行深入开发。为了增强LLaMA模型在数学奥赛问题上的表现，团队采用了成对优化策略，通过比较两个答案的相对优劣，而非直接给出绝对分数，这一方法取得了显著成效。在最具挑战性的AIME2024基准测试中，优化后的模型成功解答了8道题目，而原版LLaMA-3.1-8B-Instruct模型仅解答了2道。这一成绩超越了除o1-preview和o1-mini之外的其他商业闭源方案。10月底，团队又宣布在基于AlphaGo Zero架构复刻OpenAI o1方面取得重大进展，成功使模型在学习过程中通过与搜索树互动，获得高级思维能力，无需人工标注。不到一周时间，项目便实现开源，目前已公开内容包括预训练数据集、预训练模型和强化学习训练代码。其中，“OpenLongCoT-Pretrain”数据集包含超过10万条长思维链数据，为模型提供了丰富的数学推理过程和评价指导。经过在此数据集上的继续预训练，模型能够像o1一样高效读取和输出长思维链。尽管项目名为LLaMA-O1，目前官方提供的预训练模型是基于谷歌的Gemma2。在此基础上，开发者可以继续进行强化学习训练，使用蒙特卡洛树搜索生成经验并通过优先经验回放进行高效训练。对于那些希望在AI领域开拓新天地的人来说，小易智创无疑是一个绝佳选择。这一拥有10000+ AI应用的智创平台，不仅支持开箱即用，还能满足各行业客户需求。小易智创让用户能够自由设置平台网址、名称、logo等，轻松打造自己的AI品牌。其丰富的AI能力以及灵活的展业模式，为想要在AI创业中抓住时代风口的人们提供了无限可能。
LLaMA版o1项目背后的秘密