掃碼登錄
人類最擔(dān)心的事情還是發(fā)生了。
隨意在網(wǎng)上看幾篇新聞,卻分不清是出自 AI,還是人類之手;忙里偷閑時打把游戲,也分不清隊友是 AI 人機還是真人。
直播間里,明星數(shù)字人自顧自地吮雞爪,與賣力吆喝的真人助播形成割裂的場景……
據(jù)外媒 404 media 報道,一個原本用來追蹤和分析多種語言中不同單詞和詞匯流行度和使用頻率的項目——Wordfreq,現(xiàn)在也成了最新的受害者。
陽光明媚的地方總有陰影潛伏,顯然 Wordfreq 不是第一個受害者,也不會是最后一個受害者。
換句話說,最終為之買單的或許還是人類本身。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
「生成式 AI 污染了數(shù)據(jù),我認為沒有人掌握關(guān)于 2021 年后人類使用語言的可靠信息?!?/p>
這句來自 Wordfreq 項目創(chuàng)建者羅賓·斯皮爾心中的吶喊,透出了幾分無奈與憤懣。
要探究這背后的原委,還得從 Wordfreq 的來歷談起。
通過分析維基百科、電影和電視字幕、新聞報道、以及 Reddit 等網(wǎng)站內(nèi)容,Wordfreq 試圖追蹤 40 多種語言的變遷,進而研究隨著俚語和流行文化變化而不斷變化的語言習(xí)慣。
對于語言學(xué)家、作家和翻譯人員而言,Wordfreq 無疑是一項寶庫。但是現(xiàn)在,GitHub 地址上偌大的一句聲明「該項目將不再更新」,也悲情地給這個項目敲響了喪鐘。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
曾經(jīng),網(wǎng)絡(luò)抓取公開數(shù)據(jù)是該項目數(shù)據(jù)源的生命線,但生成式 AI 的崛起讓 AI 文本開始大行其道。
斯皮爾舉了一個典型的例子,過去人們很少使用「delve」這個詞,而隨著 ChatGPT 將這個詞匯變成了口頭禪,大有李鬼冒充李逵之勢,間而也就讓失真的詞頻統(tǒng)計影響了對人類語言習(xí)慣的準確分析。
如果這還不夠直觀,GPT 們那些陳詞濫調(diào),比如「總之」、「綜上所述」等詞匯的泛濫便是最醒目的警告。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
這種趨勢也正逐漸滲透到學(xué)術(shù)寫作乃至文學(xué)創(chuàng)作中。
一份來自斯坦福大學(xué)的報告曾指出,ChatGPT 在短短五個月內(nèi),就成了許多專家學(xué)者們的「寫作神器」。其中在計算機科學(xué)領(lǐng)域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。
隨之而來的,便是生成式 AI 對人類寫作風(fēng)格的「大舉入侵」。
意大利國際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進一步映照出 ChatGPT 的詞語偏好,也充分證實了它在學(xué)術(shù)論文寫作中的影響力。
在分析 arXiv 上超過百萬篇論文的摘要后,耿明萌發(fā)現(xiàn),論文的詞頻在 ChatGPT 普及后出現(xiàn)了明顯變化。其中,「significant」等詞匯的使用頻率大幅上升,而「is」和 「are」等詞匯則減少了約 10%。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
多數(shù)情況下,生成式 AI 可以讓一個創(chuàng)造力 60 分的人變成 70 分甚至更高的分數(shù),但在文本創(chuàng)作中,雖然個人創(chuàng)造力和寫作質(zhì)量有所提高,卻在無形中讓集體創(chuàng)意變得無趣且同質(zhì)化。
UCL 和??巳卮髮W(xué)的兩位學(xué)者在《Science》上發(fā)表了一項研究,500 名參與者被指派借助 AI 圍繞隨機主題撰寫約 8 行故事,并分析目標(biāo)受眾。
結(jié)果顯示,借助 AI 的靈感,故事變得更有「創(chuàng)造性」,但這些 AI 生成的故事彼此之間的相似度也驚人地高。
因此,當(dāng)生成式 AI 文本如同無孔不入的污染物,肆意涌入互聯(lián)網(wǎng),對于 Wordfreq 也好,還是人類也罷,怎么看都是利遠小于弊。
Wordfreq 項目的終止算得上是巨頭爬蟲戰(zhàn)爭夾縫中的犧牲品。
AI 的發(fā)展離不開算法、算力和數(shù)據(jù)的支持。盡管 AI 生成的文本與人類真實語言相比還有差距,但它在語法和邏輯性方面越來越像模像樣。
這片風(fēng)平浪靜的水面之下,一場 AI 爬取與反爬取的無聲戰(zhàn)爭正在醞釀。
在當(dāng)前的輿論環(huán)境中,爬取網(wǎng)頁數(shù)據(jù)似乎成了冒天下大不韙的禁忌,不少新聞報道評論區(qū)里充斥著網(wǎng)友的唾棄之聲,而 Wordfreq 本質(zhì)上也是通過爬取不同語言的文本而構(gòu)建起來的。
在生成式 AI 尚未盛行之時,Wordfreq 也曾度過一段蜜月期。
以往一般來說,只要遵守網(wǎng)站的 robots.txt 文件規(guī)定,爬取公開數(shù)據(jù)似乎也合情合理。這是網(wǎng)站與爬蟲之間的一種默契約定,用來指示爬蟲哪些內(nèi)容可以抓取,哪些則不可以。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
當(dāng)一個網(wǎng)站設(shè)置 robots.txt 限制協(xié)議時,就像豎起了禁止擅自進入的標(biāo)志牌。如果爬蟲違反了 robots.txt 協(xié)議,或者采用了突破網(wǎng)站反爬蟲技術(shù)手段的方法獲取數(shù)據(jù),那么就可能會構(gòu)成不正當(dāng)競爭或侵犯版權(quán)等違法行為。
然而,隨著模型對高質(zhì)量數(shù)據(jù)的灌溉需求日益增長,這場爬取與反爬取的戰(zhàn)也愈發(fā)激烈。
回顧過去,關(guān)于生成式 AI 巨頭爬蟲與反爬蟲數(shù)據(jù)的糾紛比比皆是。為首突出的自然是 OpenAI 和 Google。
去年,OpenAI 公司特地推出網(wǎng)絡(luò)爬蟲工具 GPTBot,聲稱用于抓取網(wǎng)頁數(shù)據(jù)訓(xùn)練 AI 模型。但顯然,沒有哪家媒體愿意被爬蟲暗地里薅羊毛。
意識到數(shù)據(jù)和版權(quán)重要性的媒體遵循著一手交錢,一手交數(shù)據(jù)的商業(yè)邏輯。
一項來自路透社研究所進行的研究表明,截至 2023 年底,全球 10 個國家的熱門新聞網(wǎng)站中,近一半的網(wǎng)站屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一的網(wǎng)站也對 Google 的爬蟲采取了相同的措施。
后來的故事大家應(yīng)該都很熟悉了,OpenAI 三天兩頭就被傳統(tǒng)媒體起訴,無一例外不是版權(quán)訴訟糾紛。直到今年,官司纏身的 OpenAI 才老老實實和新聞出版商建立合作關(guān)系。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
只是,此前的高墻林立、以及數(shù)據(jù)收費等策略也讓 Wordfreq 也成為了這場「數(shù)據(jù)荒」的犧牲品。
斯皮爾指出,由于 Twitter 和 Reddit(Wordfreq 包含的網(wǎng)站)已經(jīng)開始對其 API 收費,這使得網(wǎng)絡(luò)抓取數(shù)據(jù)變得更加困難。
「過去免費獲取的信息變得昂貴,」斯皮爾寫道?!肝也幌?yún)⑴c任何可能與生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」
即便能用金錢換數(shù)據(jù),但數(shù)據(jù)總有用盡的一天。
研究公司 Epoch AI 預(yù)測,互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)或?qū)⒃?2028 年耗盡,這一現(xiàn)象在業(yè)內(nèi)被稱為「數(shù)據(jù)墻」,可能成為減緩 AI 發(fā)展的最大障礙。
于是乎,不少大模型廠商開始將目光轉(zhuǎn)向合成數(shù)據(jù),主打一個用 AI 訓(xùn)練 AI。
我的直覺是,網(wǎng)絡(luò)上的文本都是狗屎,這些數(shù)據(jù)上進行訓(xùn)練簡直是在浪費算力。
當(dāng) Llama 3.1-405B 以掀桌子的實力橫掃一眾開源大模型之時,領(lǐng)導(dǎo) Llama 系列的 Meta AI 研究員 Thomas Scialom 在接受采訪時發(fā)出了如上暴論。
據(jù)他透露, Llama 3 的訓(xùn)練過程并不依賴任何人類編寫的答案,而是完全基于 Llama 2 生成的合成數(shù)據(jù)。
Scialom 的說法或許過于粗暴,但也有一定的道理。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
互聯(lián)網(wǎng)每天都在涌現(xiàn)源源不斷的數(shù)據(jù),但訓(xùn)練 AI 從來就是一個寧缺毋濫的單選題,若數(shù)據(jù)中滿是錯誤和噪聲,模型自然也會跟著學(xué)習(xí)這些「瑕疵」,預(yù)測和分類的準確性可想而知。
而且,低質(zhì)量的數(shù)據(jù)往往充斥著偏見,無法真正代表整體數(shù)據(jù)分布,從而導(dǎo)致模型產(chǎn)生有偏見的回復(fù)。教科文組織總干事阿祖萊也曾警告:
「新的 AI 工具有著在不知不覺中改變千百萬人認知的力量,因此,即便是生成內(nèi)容中極為微小的性別偏見,也可能顯著加劇現(xiàn)實世界中的不平等?!?/p>
不過,合成數(shù)據(jù)也未必是解決「數(shù)據(jù)墻」難題的靈丹妙藥。
最近來自牛津劍橋的研究人員發(fā)現(xiàn),當(dāng)模型使用 AI 生成的數(shù)據(jù)集,則輸出的質(zhì)量會逐漸下降,最終產(chǎn)生無意義的內(nèi)容,也就是俗稱的模型崩潰。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
研究負責(zé)人 Ilia Shumailov 用了拍照的比喻來形容這一過程:
如果你拍了一張照片,掃描、打印出來并再對其拍照,然后不斷重復(fù)這個過程,隨著時間的推移,基本上整個過程都會被「噪聲」淹沒。最后,你會得到一個黑暗的方塊。
當(dāng)越來越多 AI 生成的垃圾網(wǎng)頁開始充斥互聯(lián)網(wǎng),訓(xùn)練 AI 模型的原材料也將遭到污染。
例如,程序員問答社區(qū) Stack Overflow 深受 AI 其害。
在 ChatGPT 爆火之初,Stack Overflow 便宣布「臨時禁用」?!笍?ChatGPT 獲得正確答案的平均比例太低了?!构俜皆诼暶髦腥缡峭虏?。
ChatGPT 們能講人話后,AI 污染互聯(lián)網(wǎng)將變本加厲
專業(yè)用戶的數(shù)量畢竟有限,不可能逐一核實所有答案,而 ChatGPT 的錯誤率又是顯而易見的。當(dāng) AI 污染社區(qū)環(huán)境,彼時無計可施的人類也只能一禁了之。
在圖像領(lǐng)域,AI 模型趨向于重現(xiàn)最常見的數(shù)據(jù),經(jīng)歷多次迭代后,最終可能連最初的事物都會忘得一干二凈。
被看到的這一切指向了一個惡性循環(huán):AI 生成低質(zhì)量乃至錯誤信息,與人類數(shù)據(jù)混淆在一起,這些普遍低質(zhì)量的數(shù)據(jù)又被 AI 反復(fù)喂養(yǎng),最終導(dǎo)致肆意泛濫的 AI 反噬自身。