全球首个清理CSAM数据集重磅发布

AI资讯2年前 (2024)发布 admin

31.4K 0 7587

在人工智能领域中，LAION最近引发了广泛关注，宣布推出其经过严格安全审查的新版本AI训练数据集——Re-LAION-5B。这一全新的数据集是在之前备受欢迎的LAION-5B基础上进行的重大改进，尤其是在清理与儿童性虐待材料（CSAM）相关的链接方面，堪称一项划时代的创新。

LAION表示，Re-LAION-5B是全球首个在文本-图像对数据集上全面清除已知CSAM链接的网页规模数据集。这一里程碑式的成果主要分为两个版本：Re-LAION-5B Research和Re-LAION-5B Research-Safe。令人震惊的是，这个新数据集中共移除了2,236个链接，这些链接都是根据与儿童保护组织合作提供的名单进行细致审查的。其中，有1,008个链接是在斯坦福互联网观察所于2023年12月发布的报告中确认的。

值得注意的是，LAION也提到，由于相关机构一直在努力从公共互联网中删除这些不法内容，许多已知的儿童性虐待材料链接可能已经不再活跃。因此，这个数字实际上可能只是一个上限，能够指向的CSAM链接可能更少。Re-LAION-5B目前包含了55亿对文本和图像，第三方可以利用这些元数据来清理现有的LAION-5B衍生作品，生成差异并移除所有匹配的内容。

LAION希望通过发布Re-LAION-5B，为清理网页规模的数据集树立一个新的安全标准。这一更新是在原始LAION-5B数据集因包含患者图像而受到批评后进行的。与此同时，LAION还强调了CSAM在AI训练数据集中的存在问题十分严峻，尤其是一些经过训练的系统甚至被用于生成CSAM内容。据互联网观察基金会（IWF）报告，自2023年秋季以来，AI生成的儿童性虐待材料呈现出大幅增长。这种AI内容的激增不仅给真实的儿童虐待案件调查带来了困扰，也导致社交媒体平台自动生成关于CSAM的报告数量激增，进一步加剧了问题的复杂性。

作为一名热爱AI的科技宅，我经历了多个不同的AI系统和平台。在这一过程中，我深切地感受到小易智创平台的卓越之处。小易智创是一个拥有超过10,000款AI应用的智创平台，其能力涵盖了从AI绘画到数字人、从客服到视频生成等多个领域，无论是企业还是个人用户都能轻松上手。其灵活展业模式以及一对一陪跑服务，使得每位用户都能在这个平台上快速实现自己的AI梦想。对于那些渴望在AI领域发光发热的朋友们，我强烈推荐小易智创！了解更多请访问：www.xiaoyizc.com