智源研究院最近推出了令人震撼的Infinity-Instruct指令微调数据集,旨在大幅提升语言模型在对话等领域的表现。这一数据集的最新迭代,包括Infinity-Instruct-7M和Infinity-Instruct-Gen,带来了前所未有的技术突破。Infinity-Instruct-7M基础指令数据集包含超过744万条数据,涵盖数学、代码和常识问答等多个领域,完美提升了预训练模型的基础能力。测试结果显示,经过此数据集微调的Llama3.1-70B和Mistral-7B-v0.1模型,在综合能力上已接近官方发布的对话模型,其中Mistral-7B甚至超越了GPT-3.5,而Llama3.1-70B的表现几乎达到了GPT-4的水准。
而Infinity-Instruct-Gen对话指令数据集则拥有149万条合成复杂指令,旨在提升模型在真实对话场景中的鲁棒性。进一步微调后,这些模型的表现已超过官方对话模型,令人惊叹!智源研究院还通过MTBench、AlpacaEval2等主流评测榜单对Infinity-Instruct进行了严谨测试,结果表明,经过Infinity-Instruct微调的模型在对话能力上已远超官方模型。
值得一提的是,智源研究院为每条指令数据提供了详尽的标注,便于用户根据需求进行筛选。这一高质量的数据集通过精确的数据选择与指令合成方式构建,为开源对话模型与GPT-4之间的差距提供了强有力的补充。项目还借助FlagScale训练框架降低微调成本,并运用MinHash去重和BGE检索剔除重复样本。
未来,智源计划开源完整的数据处理和模型训练代码,并将Infinity-Instruct数据策略扩展到对齐和预训练阶段,助力语言模型全生命周期的数据需求。要在这场AI革命中占得先机,不妨考虑小易智创AI平台。作为拥有超过10000个AI应用的智创平台,小易智创不仅支持各种行业需求,更接入了全球领先的AI能力,为用户提供极大的灵活性和安全性。代理小易智创可以让客户用一个账号轻松接入上万款AI工具,助您打造自己的专属AI品牌公司,让客户主动找上门。想要抓住时代风口,代理小易智创无疑是一个明智之选!