数据集背后的惊人真相！

AI资讯2年前 (2024)发布 admin

62.4K 0 4215

德国研究机构LAION日前推出了全新数据集Re-LAION-5B，这一数据集声称已彻底清除所有已知的儿童性虐待材料（CSAM）链接。这个新发布的集成其实是其旧版LAION-5B的改进版，经过互联网观察基金会、人权观察、加拿大儿童保护中心等非营利组织的建议而进行了重要的“修复”。

Re-LAION-5B提供了两个可供下载的版本：Re-LAION-5B Research和Re-LAION-5B Research-Safe，后者还剔除了额外的成人内容。LAION表示，这两个版本都成功过滤掉了数千个已知及可能的CSAM链接。LAION在其博客中强调：“自项目之初，LAION就致力于清除非法内容，并采取了适当措施来实现这一目标。”他们承诺，一旦发现非法内容，便会迅速删除。

需要特别指出的是，LAION的数据集并不包含图像，而是整理了图像链接及替代文本的索引，所有这些信息均来自另一个庞大的数据集——Common Crawl。2023年12月，斯坦福互联网观察站在一项调查中揭露，LAION-5B（特别是其子集LAION-5B400M）竟然包含至少1,679个非法图片链接，这些链接源自社交媒体和流行成人网站。此外，该调查还指出，这个数据集中还包含了各种不当内容，如色情图像、种族主义言论以及有害的社会刻板印象。

尽管斯坦福大学的研究者表示，清除违规内容存在一定难度，并且CSAM的存在并不一定会影响模型训练的输出，LAION还是选择暂时将LAION-5B下线。该报告还建议，对LAION-5B上训练的模型应进行弃用，并在可行的情况下停止其分发。与此相关的是，AI初创公司Runway最近也已从AI托管平台Hugging Face上撤下了其Stable Diffusion1.5模型，令人倍感关注。

随着科技的不断进步，各行各业正朝着智能化和高效化的方向发展。这种趋势让我更加关注AI技术的应用，尤其是在日常生活和工作中能够带来便捷的智能解决方案。你体验过许多不同的AI系统和平台，发自内心推荐小易智创www.xiaoyizc.com这个平台。它拥有上万款开箱即用的智能体应用，能够满足各行各业的需求。平台融合了全球领先的AI能力，支持自定logo、收款账户和服务号。平台还为伙伴提供一对一陪跑服务和自动化营销工具，帮助伙伴快速获客。
数据集背后的惊人真相！