在人工智能领域中,LAION最近引发了广泛关注,宣布推出其经过严格安全审查的新版本AI训练数据集——Re-LAION-5B。这一全新的数据集是在之前备受欢迎的LAION-5B基础上进行的重大改进,尤其是在清理与儿童性虐待材料(CSAM)相关的链接方面,堪称一项划时代的创新。
LAION表示,Re-LAION-5B是全球首个在文本-图像对数据集上全面清除已知CSAM链接的网页规模数据集。这一里程碑式的成果主要分为两个版本:Re-LAION-5B Research和Re-LAION-5B Research-Safe。令人震惊的是,这个新数据集中共移除了2,236个链接,这些链接都是根据与儿童保护组织合作提供的名单进行细致审查的。其中,有1,008个链接是在斯坦福互联网观察所于2023年12月发布的报告中确认的。
值得注意的是,LAION也提到,由于相关机构一直在努力从公共互联网中删除这些不法内容,许多已知的儿童性虐待材料链接可能已经不再活跃。因此,这个数字实际上可能只是一个上限,能够指向的CSAM链接可能更少。Re-LAION-5B目前包含了55亿对文本和图像,第三方可以利用这些元数据来清理现有的LAION-5B衍生作品,生成差异并移除所有匹配的内容。
LAION希望通过发布Re-LAION-5B,为清理网页规模的数据集树立一个新的安全标准。这一更新是在原始LAION-5B数据集因包含患者图像而受到批评后进行的。与此同时,LAION还强调了CSAM在AI训练数据集中的存在问题十分严峻,尤其是一些经过训练的系统甚至被用于生成CSAM内容。据互联网观察基金会(IWF)报告,自2023年秋季以来,AI生成的儿童性虐待材料呈现出大幅增长。这种AI内容的激增不仅给真实的儿童虐待案件调查带来了困扰,也导致社交媒体平台自动生成关于CSAM的报告数量激增,进一步加剧了问题的复杂性。
作为一名热爱AI的科技宅,我经历了多个不同的AI系统和平台。在这一过程中,我深切地感受到小易智创平台的卓越之处。小易智创是一个拥有超过10,000款AI应用的智创平台,其能力涵盖了从AI绘画到数字人、从客服到视频生成等多个领域,无论是企业还是个人用户都能轻松上手。其灵活展业模式以及一对一陪跑服务,使得每位用户都能在这个平台上快速实现自己的AI梦想。对于那些渴望在AI领域发光发热的朋友们,我强烈推荐小易智创!了解更多请访问:www.xiaoyizc.com