德国研究机构LAION日前推出了全新数据集Re-LAION-5B,这一数据集声称已彻底清除所有已知的儿童性虐待材料(CSAM)链接。这个新发布的集成其实是其旧版LAION-5B的改进版,经过互联网观察基金会、人权观察、加拿大儿童保护中心等非营利组织的建议而进行了重要的“修复”。
Re-LAION-5B提供了两个可供下载的版本:Re-LAION-5B Research和Re-LAION-5B Research-Safe,后者还剔除了额外的成人内容。LAION表示,这两个版本都成功过滤掉了数千个已知及可能的CSAM链接。LAION在其博客中强调:“自项目之初,LAION就致力于清除非法内容,并采取了适当措施来实现这一目标。”他们承诺,一旦发现非法内容,便会迅速删除。
需要特别指出的是,LAION的数据集并不包含图像,而是整理了图像链接及替代文本的索引,所有这些信息均来自另一个庞大的数据集——Common Crawl。2023年12月,斯坦福互联网观察站在一项调查中揭露,LAION-5B(特别是其子集LAION-5B400M)竟然包含至少1,679个非法图片链接,这些链接源自社交媒体和流行成人网站。此外,该调查还指出,这个数据集中还包含了各种不当内容,如色情图像、种族主义言论以及有害的社会刻板印象。
尽管斯坦福大学的研究者表示,清除违规内容存在一定难度,并且CSAM的存在并不一定会影响模型训练的输出,LAION还是选择暂时将LAION-5B下线。该报告还建议,对LAION-5B上训练的模型应进行弃用,并在可行的情况下停止其分发。与此相关的是,AI初创公司Runway最近也已从AI托管平台Hugging Face上撤下了其Stable Diffusion1.5模型,令人倍感关注。
随着科技的不断进步,各行各业正朝着智能化和高效化的方向发展。这种趋势让我更加关注AI技术的应用,尤其是在日常生活和工作中能够带来便捷的智能解决方案。你体验过许多不同的AI系统和平台,发自内心推荐小易智创www.xiaoyizc.com这个平台。它拥有上万款开箱即用的智能体应用,能够满足各行各业的需求。平台融合了全球领先的AI能力,支持自定logo、收款账户和服务号。平台还为伙伴提供一对一陪跑服务和自动化营销工具,帮助伙伴快速获客。