Sociology

新聞機構指控Perplexity存在抄襲和非道德的網絡爬蟲行為

瑪詩北歐 Monday, July 8 2024

在生成式人工智能的時代，當聊天機器人可以根據從互聯網獲取的內容提供詳細答案時，公平使用和抄襲之間的界線以及常規網絡爬蟲和非道德的摘要之間的界線非常微妙。

Perplexity AI是一家初創公司，將搜索引擎與大型語言模型結合，生成具有詳細回答的答案，而不僅僅是提供鏈接。與OpenAI的ChatGPT和Anthropic的Claude不同，Perplexity並不訓練自己的基礎人工智能模型，而是使用來自互聯網的信息並將其轉化為答案。

然而，六月份的一系列指控表明這家初創公司的做法接近非道德。《Forbes》指責Perplexity在該初創公司的beta版Perplexity Pages功能中涉嫌抄襲其中一篇新聞文章。《Wired》則指責Perplexity非法爬取其網站以及其他網站。

截至4月份，Perplexity正在籌集2.5億美元，估值接近30億美元。這家由英偉達和傑夫·貝佐斯支持的公司表示，它沒有做錯任何事情。Perplexity表示，他們已經遵循出版商的要求不爬取內容，並且他們在合理使用版權法的範圍內運作。

這種情況復雜。其核心是圍繞兩個概念的細微差別。第一個是Robots Exclusion Protocol，這是網站用來表明他們不希望爬蟲訪問或使用他們的內容的標準。第二個是著作權法中的合理使用，為某些情況允許在沒有許可或付款的情況下使用受版權保護的材料設立了法律框架。

偷偷爬取網絡內容

《Wired》於6月19日的報道聲稱，Perplexity無視了Robots Exclusion Protocol，偷偷地爬取出版商不希望機器人訪問的網站區域。《Wired》報導稱，他們在自己的新聞網站以及其母公司Condé Nast旗下的其他出版物上觀察到了與Perplexity相關的設備這樣做。

報告指出，開發人員羅伯·奈特進行了類似的實驗，並得出了相同的結論。

《Wired》記者和奈特通過要求Perplexity摘要一系列URL來測試他們的懷疑，然後在伺服器端觀察到與Perplexity相關的IP地址訪問那些網站。Perplexity然後“摘要化”了這些URL的文本 - 盡管在《Wired》為此目的創建的一個具有有限內容的虛擬網站的情況下，它將頁面上的文本原封不動地返回。

這就是Robots Exclusion Protocol的微妙之處。

Web scraping技術上是指自動化軟件部分地掃描互聯網以從網站中索引和收集信息。像Google這樣的搜索引擎這樣做是為了將網頁包含在搜索結果中。其他公司和研究人員使用爬蟲從互聯網中收集數據進行市場分析，學術研究以及，正如我們所了解的那樣，訓練機器學習模型。

遵守這個協議的Web爬蟲將首先查找站點源代碼中的“robots.txt”文件，以查看什麼被允許，什麼不被允許 - 今天，不允許的通常是爬取出版商網站以建立大量AI訓練數據集。搜索引擎和AI公司，包括Perplexity，已經表示他們遵守這個協議，但他們並沒有法律上的義務這樣做。

Perplexity的商業負責人德米特里·舍維倫科告訴TechCrunch，總結URL並不等同於爬行。“爬行是周圍的活動，吸收信息並添加到索引中，”舍維倫科說。他指出，當用戶將URL放入其查詢中時，Perplexity的IP可能顯示為訪問一個被“在robots.txt中被禁止”的網站，這“不符合爬行的定義。”

“我們只是在回應用戶對該URL直接且具體的請求時去該URL，”舍維倫科說。

換句話說，如果用戶手動提供URL給AI，Perplexity表示，其AI並不是在充當Web爬蟲，而是作為一個工具來幫助用戶檢索和處理他們請求的信息。

但對於《Wired》和許多其他出版商來說，這是沒有區別的區別，因為如果進行數千次，訪問URL並從中提取信息以總結文本看起來就非常像爬取。

（《Wired》還報導稱，Perplexity的雲服務提供商之一，Amazon Web Services正在調查這家初創公司，看是否忽略了robots.txt協議以爬取用戶在提示中引用的網頁。AWS告訴TechCrunch，Wired的報導是不準確的，並且告訴該出版物，它正在處理他們的關於濫用服務的媒體查詢。）

抄襲還是合理使用？

《Forbes》指控Perplexity抄襲其關於前谷歌首席執行官艾瑞克·施密特開發人工智能動力無人機的獨家報導。

《Wired》和《Forbes》也指責Perplexity存在抄襲行為。諷刺的是，《Wired》指責Perplexity抄襲了報道該初創公司偷偷爬取其網絡內容的那篇文章。

《Wired》記者說，Perplexity聊天機器人“撰寫了一篇包含六段，287個單詞，緊密總結了故事的結論和用來做出這些結論的證據。”一個句子完全複製了原始故事中的一個句子;《Wired》表示這構成抄襲。波因特研究所的指南稱，如果作者（或AI）引用了源作品中的七個連續單詞，這可能是抄襲。

《Forbes》還指控Perplexity存在抄襲行為。該新聞網站在六月初發表了一份調查報告，內容是關於谷歌首席執行官艾瑞克·施密特新企業正在大量招聘並測試具有軍事應用的人工智能動力無人機。次日，《Forbes》編輯約翰·帕克佐斯基在X上發帖，指責Perplexity將這個獨家報導作為該初創公司beta功能Perplexity Pages的一部分重新發布。

Perplexity Pages目前僅對特定的Perplexity訂閱者開放，這是一個新工具，該工具承諾幫助用戶將研究轉化為“視覺上令人驚豔的全面內容”，根據Perplexity的說法。該網站上這些內容的示例來自該初創公司的員工，包括“打鼓初學者指南”或“史蒂夫·賈伯斯：有遠見的CEO”等文章。

帕克佐斯基寫道：“它大部分是剽竊我們的報導。”“它以最容易被忽視的方式引述我們，以及那些轉發我們的人。”

《Forbes》報導稱，Perplexity團隊匯編的許多帖子“與多家出版社的原始故事非常相似，包括福布斯，CNBC和彭博社。”《Forbes》說，這些帖子吸引了成千上萬的瀏覽量，文章文本中沒有提到任何出版物的名稱。相反，Perplexity的文章包含了以“小型，易被忽視的徽標的形式”進行的歸屬，這些徽標鏈接到那些出版物。

此外，《Forbes》說，有關施密特的帖子與《Forbes》的獨家報導“幾乎一模一樣”。匯編還包括一幅由福布斯設計團隊製作的圖片，似乎被Perplexity稍作修改。

Perplexity首席執行官阿拉文德·斯里尼瓦斯當時對《Forbes》表示，該初創公司將來會更加顯著地引用來源 - 這並非毫無瑕疵的解決方案，因為引文本身存在技術困難。ChatGPT和其他模型已經「出現幻覺連結」，由於Perplexity使用OpenAI模型，所以很可能容易出現這樣的幻覺。實際上，《Wired》報導稱，他觀察到Perplexity出現了整個故事的幻覺。

瑪詩北歐