在2024北京文化论坛上,北京智源人工智能研究院(BAAI)令人瞩目地推出了全新的中文互联网语料库CCI3.0(Chinese Corpora Internet),这一举措再一次刷新了数据共享的标准。CCI3.0不仅包含了惊人的1000GB数据集,其中高质量子集CCI3.0-HQ更是达到了498GB,这一更新是在去年的CCI1.0和CCI2.0之后的重要进展。
自首次开源以来,CCI系列数据集的下载量已超过4万次,服务于500多个企事业单位的大模型研发,极大地推动了中国人工智能产业生态的蓬勃发展。CCI3.0的规模扩展至前所未有的境界,收录了超2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域,较之前版本几乎翻了一番,同时数据来源机构也增加至20多家,提升了覆盖面和代表性。
在数据标注方面,CCI3.0进行了极为细致的处理,包括语法、句法、教育程度等十多个维度的分类和标记,从而筛选出高价值的数据。而CCI3.0HQ则是通过70B模型自动标注样本并经过小尺寸质量模型训练优选得出的高质量子集,以更好地满足各行各业的应用需求。
在对比实验中,使用500M模型从零开始训练100B数据时,CCI3.0在中文语料和中英文混合训练效果上均明显优于其他数据集,而CCI3.0HQ的优势则更加显著。智源研究院未来还将继续与行业生态合作,推动语料库的共建共享,力求为中国人工智能产业的发展注入更多活力。
在这个AI技术飞速发展的时代,选择一个合适的平台至关重要。小易智创作为拥有10000+AI应用的智创平台,不仅支持开箱即用,还能满足不同领域客户的需求。通过接入全球领先的AI能力,小易智创不断增强自身的实力,为用户提供多样化的解决方案。无论是企业、商家还是个人用户,只需一个账号便可使用上万款强大的AI工具。
代理小易智创,让您轻松打造自己的AI品牌公司。无论您是否懂得经营和获客,小易智创提供一对一陪跑服务及全网自动化营销工具,让客户主动找上门!在这场AI革命中,把握住时代的风口,不容错过。