AI 引發(fā)了一場關(guān)于網(wǎng)絡(luò)爬蟲的戰(zhàn)斗

—— 由于網(wǎng)站限制爬蟲機器人，訓(xùn)練數(shù)據(jù)可能最終會供不應(yīng)求

作者：Eliza Strickland 時間：2024-09-06 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大多數(shù)人認為生成式 AI 會越來越好;畢竟，這是迄今為止的趨勢。它可能會這樣做。但有些人沒有意識到的是，生成式 AI 模型的好壞取決于它們所訓(xùn)練的巨大數(shù)據(jù)集，而這些數(shù)據(jù)集并不是根據(jù) OpenAI 和 Anthropic 等領(lǐng)先 AI 公司擁有的專有數(shù)據(jù)構(gòu)建的。相反，它們由我們所有人創(chuàng)建的公共數(shù)據(jù)組成，包括任何曾經(jīng)寫過博客文章、發(fā)布過視頻、在 Reddit 帖子上發(fā)表過評論或基本上在網(wǎng)上做過任何其他事情的人。

本文引用地址：http://www.butianyuan.cn/article/202409/462744.htm

AI 研究人員志愿者團體 Data Provenance Initiative 的一份新報告揭示了所有這些數(shù)據(jù)的情況。這份題為《危機中的同意：AI Data Commons 的快速衰落》的報告指出，大量感到受到生成式 AI 威脅的組織正在采取措施隔離其數(shù)據(jù)。IEEE Spectrum 與數(shù)據(jù)來源計劃（Data Provenance Initiative）的首席研究員 Shayne Longpre 就該報告及其對 AI 公司的影響進行了交談。

Shayne Longpre 發(fā)表在：

? 網(wǎng)站如何阻止網(wǎng)絡(luò)爬蟲，以及為什么

? 消失的數(shù)據(jù)及其對 AI 公司的意義

? 合成數(shù)據(jù)、峰值數(shù)據(jù)以及接下來會發(fā)生什么

網(wǎng)站用來阻止網(wǎng)絡(luò)爬蟲的技術(shù)并不新鮮 — 機器人排除協(xié)議于 1995 年推出。您能否解釋一下它是什么，以及為什么它在生成式 AI 時代突然變得如此重要？

謝恩·朗普雷： Robots.txt 是一個機器可讀的文件，爬蟲（瀏覽 Web 并記錄所見內(nèi)容的機器人）使用它來確定是否爬取網(wǎng)站的某些部分。在網(wǎng)站主要使用它來指導(dǎo) Web 搜索的時代，它成為事實上的標準。所以想想 Bing 或 Google 搜索;他們希望記錄此信息，以便改善用戶在 Web 上導(dǎo)航的體驗。這是一種非常共生的關(guān)系，因為 Web 搜索是通過向網(wǎng)站發(fā)送流量來運作的，而網(wǎng)站希望如此。一般來說，大多數(shù)網(wǎng)站都能很好地與大多數(shù)爬蟲配合使用。

接下來，讓我談?wù)剬斫膺@一點很重要的一系列主張。通用 AI 模型及其令人印象深刻的功能依賴于用于訓(xùn)練它們的數(shù)據(jù)和計算規(guī)模。規(guī)模和數(shù)據(jù)真的很重要，很少有來源像 Web 那樣提供公共規(guī)模。因此，許多基礎(chǔ)模型都是在 Web 爬取的 [數(shù)據(jù)集] 上訓(xùn)練的。在這些流行和重要的數(shù)據(jù)集下，基本上只是網(wǎng)站和用于收集、打包和處理這些數(shù)據(jù)的爬蟲基礎(chǔ)設(shè)施。我們的研究不僅關(guān)注數(shù)據(jù)集，還關(guān)注來自底層網(wǎng)站的偏好信號。它是數(shù)據(jù)本身的供應(yīng)鏈。

但去年，許多網(wǎng)站開始使用 robots.txt 來限制機器人，尤其是通過廣告和付費墻獲利的網(wǎng)站——想想新聞和藝術(shù)家。他們特別害怕，也許這是正確的，因為生成式 AI 可能會影響他們的生計。因此，他們正在采取措施保護自己的數(shù)據(jù)。

當(dāng)一個網(wǎng)站設(shè)置robots.txt限制時，就像豎起了禁止擅自進入的標志，對吧？它不可執(zhí)行。您必須相信爬蟲會尊重它。

Longpre： 這樣做的悲劇在于，robots.txt 是機器可讀的，但似乎沒有法律效力。而服務(wù)條款可能在法律上具有可執(zhí)行性，但不是機器可讀的。在服務(wù)條款中，他們可以用自然語言闡明對數(shù)據(jù)使用的偏好。所以他們可以說，“你可以使用這些數(shù)據(jù)，但不能用于商業(yè)用途。但是在robots.txt中，您必須單獨指定爬蟲，然后說出您允許或不允許它們的網(wǎng)站哪些部分。這給網(wǎng)站帶來了不必要的負擔(dān)，需要在數(shù)以千計的不同爬蟲中弄清楚哪些對應(yīng)于他們想要的用途，哪些對應(yīng)于他們不喜歡的用途。

我們是否知道爬蟲通常是否遵守 robots.txt 中的限制？

Longpre：許多大公司都有明確說明其規(guī)則或程序的文件。例如，在 Anthropic 的案例中，他們確實表示他們尊重 ClaudeBot 的robots.txt。然而，這些公司中的許多公司最近也出現(xiàn)在新聞中，因為它們被指責(zé)不尊重robots.txt和抓取網(wǎng)站。從外部來看，目前尚不清楚為什么人工智能公司所說的和他們被指控做的事情之間存在差異。但是，許多使用爬蟲的親社會團體——小型創(chuàng)業(yè)公司、學(xué)者、非營利組織、記者——他們往往尊重robots.txt。他們不是這些限制的預(yù)期目標，但他們會被這些限制阻止。

在報告中，您查看了通常用于訓(xùn)練生成式 AI 系統(tǒng)的三個訓(xùn)練數(shù)據(jù)集，這些數(shù)據(jù)集都是根據(jù)過去幾年的網(wǎng)絡(luò)爬蟲創(chuàng)建的。您發(fā)現(xiàn)，從 2023 年到 2024 年，此后受到限制的已爬網(wǎng)域數(shù)量大幅增加。您能談?wù)勥@些發(fā)現(xiàn)嗎？

Longpre： 我們發(fā)現(xiàn)，如果你看一下特定的數(shù)據(jù)集，讓我們以 2019 年創(chuàng)建的非常流行的 C4 為例——在不到一年的時間里，如果你尊重或遵守底層網(wǎng)站的偏好，它大約 5% 的數(shù)據(jù)已被撤銷?，F(xiàn)在 5% 聽起來并不多，但當(dāng)您意識到這部分數(shù)據(jù)主要對應(yīng)于最高質(zhì)量、維護最完善和最新的數(shù)據(jù)時。當(dāng)我們查看此 C4 數(shù)據(jù)集中的前 2,000 個網(wǎng)站（這些網(wǎng)站是按大小計算的前 2,000 個網(wǎng)站，它們大多是新聞、大型學(xué)術(shù)網(wǎng)站、社交媒體和精心策劃的高質(zhì)量網(wǎng)站）時，前 2,000 個網(wǎng)站中 25% 的數(shù)據(jù)已被撤銷。這意味著，尊重robots.txt模型的訓(xùn)練數(shù)據(jù)分發(fā)正在迅速從高質(zhì)量的新聞、學(xué)術(shù)網(wǎng)站、論壇和社交媒體轉(zhuǎn)向更多的組織和個人網(wǎng)站以及電子商務(wù)和博客。

如果我們要求某個未來版本的 ChatGPT 或 Perplexity 來回答復(fù)雜的問題，并且它從個人博客和購物網(wǎng)站獲取信息，這似乎可能是一個問題。

Longpre： 完全。很難衡量這將如何影響模型，但我們懷疑尊重robots.txt的模型的性能與已經(jīng)保護這些數(shù)據(jù)并愿意對其進行訓(xùn)練的模型的性能之間存在差距。

但較舊的數(shù)據(jù)集仍然完好無損。AI 公司可以只使用舊數(shù)據(jù)集嗎？這樣做的缺點是什么？

Longpre：嗯，持續(xù)的數(shù)據(jù)新鮮度真的很重要。目前也不清楚robots.txt是否可以追溯適用。出版商可能會爭辯說他們有。因此，這取決于您對訴訟的胃口，或者您也認為趨勢可能會走向何方，尤其是在美國，圍繞合理使用數(shù)據(jù)的訴訟正在進行中。最好的例子顯然是《紐約時報》對 OpenAI 和 Microsoft 的反對，但現(xiàn)在有很多變體。關(guān)于它會走向何方，存在很多不確定性。

這份報告被稱為《危機中的同意》（Consent in Crisis）。您為什么認為這是一場危機？

Longpre：我認為這對數(shù)據(jù)創(chuàng)建者來說是一場危機，因為很難用現(xiàn)有協(xié)議來表達他們想要的東西。此外，對于一些非商業(yè)性甚至可能與 AI 無關(guān)的開發(fā)人員來說，學(xué)者和研究人員發(fā)現(xiàn)這些數(shù)據(jù)越來越難訪問。我認為這也是一場危機，因為它太混亂了?；A(chǔ)設(shè)施的設(shè)計并不是為了同時容納所有這些不同的使用案例。由于這些巨大的行業(yè)發(fā)生碰撞，它最終成為一個問題，生成式 AI 針對新聞創(chuàng)作者和其他人。

如果這種情況持續(xù)下去，越來越多的數(shù)據(jù)受到限制，AI 公司該怎么辦？為了繼續(xù)訓(xùn)練巨大的模型，他們的行動會是什么？

Longpre： 大公司將直接許可它。如果大量這些數(shù)據(jù)被取消抵押品贖回權(quán)或難以收集，對于一些大公司來說，這可能不是一個壞結(jié)果，它只會為進入創(chuàng)造更大的資本要求。我認為大公司將加大對數(shù)據(jù)收集管道的投資，并持續(xù)訪問用戶生成的寶貴數(shù)據(jù)源，例如 YouTube、GitHub 和 Reddit。獲得對這些網(wǎng)站的獨家訪問權(quán)可能是一種明智的市場游戲，但從反壟斷的角度來看，這是一個有問題的游戲。我特別擔(dān)心由此可能產(chǎn)生的獨家數(shù)據(jù)獲取關(guān)系。

您認為合成數(shù)據(jù)可以填補空白嗎？

Longpre： 大公司已經(jīng)在大量使用合成數(shù)據(jù)。合成數(shù)據(jù)既有恐懼，也有機遇。一方面，有一系列工作證明了模型崩潰的可能性，即由于對不良合成數(shù)據(jù)進行訓(xùn)練而導(dǎo)致的模型退化，隨著越來越多的生成機器人被釋放，這些數(shù)據(jù)可能會更頻繁地出現(xiàn)在網(wǎng)絡(luò)上。但是，我認為大型模型不太可能受到太大阻礙，因為它們具有高質(zhì)量的過濾器，因此質(zhì)量差或重復(fù)的內(nèi)容可以被抽走。合成數(shù)據(jù)的機會在于，它在實驗室環(huán)境中創(chuàng)建得非常高質(zhì)量，并且它特別針對未開發(fā)的領(lǐng)域。

您是否相信我們可能處于峰值數(shù)據(jù)的觀點？或者你覺得這是一個夸大其詞的擔(dān)憂？

Longpre： 那里有很多未開發(fā)的數(shù)據(jù)。但有趣的是，很多都隱藏在 PDF 后面，因此您需要進行 OCR [光學(xué)字符識別]。許多數(shù)據(jù)被鎖定在政府、專有渠道、非結(jié)構(gòu)化格式或 PDF 等難以提取的格式中。我認為在弄清楚如何提取這些數(shù)據(jù)方面將投入更多資金。我確實認為，就容易獲得的數(shù)據(jù)而言，許多公司開始碰壁并轉(zhuǎn)向合成數(shù)據(jù)。

這里的趨勢線是什么？您是否希望在未來幾年看到更多網(wǎng)站設(shè)置robots.txt限制？

Longpre： 我們預(yù)計，無論是在robots.txt方面還是在服務(wù)方面，限制都會增加。這些趨勢線從我們的工作中非常清晰，但它們可能會受到外部因素的影響，例如立法、公司本身改變政策、訴訟結(jié)果以及來自作家協(xié)會的社區(qū)壓力等等。我預(yù)計，數(shù)據(jù)商品化的加劇將導(dǎo)致該領(lǐng)域的更多戰(zhàn)場。

您希望看到行業(yè)內(nèi)的標準化與使網(wǎng)站更容易表達有關(guān)抓取的偏好方面發(fā)生什么？

Longpre： 在 Data Province Initiative，我們絕對希望出現(xiàn)并采用新標準，使創(chuàng)作者能夠以更精細的方式表達他們對數(shù)據(jù)使用的偏好。這將使他們的負擔(dān)減輕得多。我認為這是不費吹灰之力的雙贏。但目前尚不清楚誰的工作是制定或執(zhí)行這些標準。如果 [AI] 公司自己能夠得出這個結(jié)論并付諸實踐，那就太神奇了。但是，標準的設(shè)計者幾乎不可避免地會對自己的使用產(chǎn)生一些偏見，特別是如果它是一個公司實體。

此外，并非所有情況下都不應(yīng)尊重偏好。例如，我不認為從事親社會研究的學(xué)者或記者必須被取消贖回權(quán)，不能使用已經(jīng)公開的機器訪問任何人都可以自己訪問的網(wǎng)站中的數(shù)據(jù)。并非所有數(shù)據(jù)都是平等的，也不是所有用途都是平等的。

新聞中心

AI 引發(fā)了一場關(guān)于網(wǎng)絡(luò)爬蟲的戰(zhàn)斗

評論

相關(guān)推薦

技術(shù)專區(qū)