Tech

Reddit的最新变化旨在保护平台免受AI爬虫的影响

瑪詩北歐 Monday, August 19 2024

Reddit 在周二宣布，正在更新其 Robots Exclusion Protocol（robots.txt 文件），告知自动网络机器人它们是否被允许爬取站点。

历史上，robots.txt 文件被用来允许搜索引擎爬取站点并引导人们查看内容。然而，随着人工智能的兴起，网站会被爬取并用于训练模型，而无需承认内容的实际来源。

除了更新的 robots.txt 文件，Reddit 还将继续对未知机器人和爬虫进行速率限制和阻止，防止它们访问其平台。该公司告诉 TechCrunch，如果机器人和爬虫不遵守 Reddit 的公共内容政策并且没有与平台达成协议，它们将被限制速率或阻止。

Reddit 表示，此更新不应影响大多数用户或善意方，如研究人员和组织，比如互联网档案馆。相反，此更新旨在阻止AI公司在 Reddit 内容上训练其大型语言模型。当然，AI爬虫可能会忽略 Reddit 的 robots.txt 文件。

此公告发布几天后，《连线》（Wired）的一项调查发现，由人工智能首创的搜索初创公司 Perplexity 一直在盗取和爬取内容。《连线》发现，尽管 Reddit 在其 robots.txt 文件中封锁了 Perplexity，但 Perplexity 似乎无视了不爬取其网站的请求。Perplexity CEO Aravind Srinivas 对这些说法做出了回应，并表示 robots.txt 文件不是一个法律框架。

Reddit 的最新变化不会影响与之达成协议的公司。例如，Reddit 与 Google 达成了一项价值 6000 万美元的协议，允许这家搜索巨头在社交平台的内容上训练其人工智能模型。通过这些变化，Reddit 向其他希望利用 Reddit 数据进行人工智能训练的公司发出了信号，他们必须付费。

Reddit 在一篇博客文章中表示：“访问 Reddit 内容的任何人都必须遵守我们的政策，包括为了保护 Reddit 用户而制定的政策。” “我们对与 Reddit 内容进行大规模访问的公司选择性合作并信任。”

这一公告并不令人意外，因为 Reddit 几周前发布了一项新政策，旨在指导商业实体和其他合作伙伴如何访问和使用 Reddit 的数据。

瑪詩北歐