Tech

Reddit的最新变化旨在保护平台免受AI爬虫的影响

Reddit 在周二宣布,正在更新其 Robots Exclusion Protocol(robots.txt 文件),告知自动网络机器人它们是否被允许爬取站点。

历史上,robots.txt 文件被用来允许搜索引擎爬取站点并引导人们查看内容。然而,随着人工智能的兴起,网站会被爬取并用于训练模型,而无需承认内容的实际来源。

除了更新的 robots.txt 文件,Reddit 还将继续对未知机器人和爬虫进行速率限制和阻止,防止它们访问其平台。该公司告诉 TechCrunch,如果机器人和爬虫不遵守 Reddit 的公共内容政策并且没有与平台达成协议,它们将被限制速率或阻止。

Reddit 表示,此更新不应影响大多数用户或善意方,如研究人员和组织,比如互联网档案馆。相反,此更新旨在阻止AI公司在 Reddit 内容上训练其大型语言模型。当然,AI爬虫可能会忽略 Reddit 的 robots.txt 文件。

此公告发布几天后,《连线》(Wired)的一项调查发现,由人工智能首创的搜索初创公司 Perplexity 一直在盗取和爬取内容。《连线》发现,尽管 Reddit 在其 robots.txt 文件中封锁了 Perplexity,但 Perplexity 似乎无视了不爬取其网站的请求。Perplexity CEO Aravind Srinivas 对这些说法做出了回应,并表示 robots.txt 文件不是一个法律框架。

Reddit 的最新变化不会影响与之达成协议的公司。例如,Reddit 与 Google 达成了一项价值 6000 万美元的协议,允许这家搜索巨头在社交平台的内容上训练其人工智能模型。通过这些变化,Reddit 向其他希望利用 Reddit 数据进行人工智能训练的公司发出了信号,他们必须付费。

Reddit 在一篇博客文章中表示:“访问 Reddit 内容的任何人都必须遵守我们的政策,包括为了保护 Reddit 用户而制定的政策。” “我们对与 Reddit 内容进行大规模访问的公司选择性合作并信任。”

这一公告并不令人意外,因为 Reddit 几周前发布了一项新政策,旨在指导商业实体和其他合作伙伴如何访问和使用 Reddit 的数据。

Related Articles

Back to top button Back to top button