Bluesky数据抓取事件引发的风波

AI资讯2周前发布 admin
51.8K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:最近,社交媒体平台Bluesky陷入了一场震惊业界的数据抓取风波。著名机器学习专家丹尼尔·范斯特林(Daniel van Strien)利用Bluesky的API接口,抓取了超过一百万条公开的用户帖子,并将这一庞大的数据集上传至AI公司Hugging Face。这些数据不仅包括用户的去中心化标识符(DID),还具备了便捷的搜索功能,能够精准定位特定用户的内容。范斯特林表示,此次数据集的主要用途是为语言模型和自然语言处理的开发提供支持,同时还涵盖了社交媒体趋势分析、内容审核和发布模式的深入研究。

然而,这一行为引起了广泛关注,因为Bluesky用户并未同意将其内容用于该目的。虽然Bluesky平台并未明文禁止此类数据抓取,但其API确实提供了一个“聚合的、按时间顺序排列的公共数据流”,其中包含了帖子、点赞、关注和账号变更等信息,这在理论上是对第三方开发者开放的。对此,Bluesky的一位代表回应称:“Bluesky是一个开放和公共的社交网络,与互联网上的其他网站情况相似。我们希望找到一种方式,让Bluesky用户能够明确告知外部组织或开发者是否同意使用其数据,并希望这些组织能够尊重用户的选择。”

事件引发了用户的不安,尤其是那些因竞争平台X的新AI训练政策而转向Bluesky的用户。值得注意的是,在该事件报道发布不久后,范斯特林便将相关数据从Hugging Face删除,并在Bluesky上公开表示:“我已从该仓库中删除Bluesky数据。虽然我想支持该平台的工具开发,但我意识到这种做法违反了数据收集中的透明度和同意原则。对此,我深感抱歉。”

这起事件揭示了社交媒体数据使用中的复杂性与敏感性,未来如何保障用户隐私与权益,将是各方亟需面对的重要课题。
Bluesky数据抓取事件引发的风波

© 版权声明
 小易智创平台

相关文章