Nature曝光:論文賣天價餵AI!出版商狂賺,作者0收入＊阿波羅新聞網

Nature的一篇文章透露：你發過的paper，很可能已經被拿去訓練模型了！有的出版商靠賣數據，已經狂賺2300萬美元。然而辛辛苦苦碼論文的作者們，卻拿不到一分錢，這合理嗎？全球數據告急，怎麼辦？論文來湊！最近，Nature的一篇文章向我們揭露了這樣一個事實：連科研論文，都被薅去訓AI了……

據悉，很多學術出版商，已經向科技公司授權訪問自家的論文，用來訓練AI模型。一篇論文從醞釀idea到成稿，包含了多少作者日日夜夜的心血，如今很可能在不知情的情況下，就成為訓AI的數據。這合理嗎？

更可氣的是，自己的論文還被出版商拿來牟利了。根據Nature報告，上個月英國的學術出版商Taylor& Francis已經和微軟簽署了一項價值1000萬美元的協議，允許微軟獲取它的數據，來改進AI系統。而6月的一次投資者更新顯示，美國出版商Wiley允許某家公司使用其內容訓模型後，直接一舉豪賺2300萬美元！但這個錢，跟廣大論文的作者是半毛錢關係都沒有的。

而且，華盛頓大學AI研究員Lucy Lu Wang還表示，即使不在可開放獲取的存儲庫內，任何可在線閱讀的內容，都很可能已經被輸入LLM中。更可怕的是，如果一篇論文已經被用作模型的訓練數據，在模型訓練完成後，它是無法刪除的。如果現在，你的論文還尚未被用於訓練AI，那也不用擔心——它應該很快就會了！

數據集如黃金，各大公司紛紛出價

我們都知道，LLM需要在海量數據上進行訓練的，而這些數據通常是從互聯網上抓取的。正是從這些訓練數據中數十億的token中，LLM推導出模式，從而生成文本、圖像、代碼。而學術論文篇幅又長，信息密度又高，顯然就是能餵給LLM的最有價值的數據之一。而且，在大量科學信息上訓練LLM，也能讓它們在科學主題上的推理能力大大提高。Wang已經共同創建了基於8110萬篇學術論文的數據集S2ORC。起初，S2ORC數據集是為了文本挖掘而開發的，但後來，它被用於訓練LLM。2020年非營利組織Eleuther AI構建的Pile，是NLP研究中應用最廣泛的大型開源數據集之一，總量達到800GB。其中就包含了大量學術來源的文本，arXiv論文比例為8.96%，此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。

前段時間開源的1T token數據集MINT也挖掘到了arXiv這個寶藏，共提取到了87萬篇文檔、9B token。從下面這張數據處理流程圖中，我們就能發現論文數據的質量有多高——幾乎不需要太多的過濾和去重，使用率極高。

而現在，為了應對版權爭議，各大模型公司也開始真金白銀地出價，購買高質量數據集了。今年，「金融時報」已經把自己的內容以相當可觀的價格，賣給了OpenAI；Reddit也和谷歌達成了類似的協議。而以後，這樣的交易也少不了。

證明論文曾被LLM使用，難度極高

有些AI開發者會開放自己的數據集，但很多開發AI模型的公司，會對大部分訓練數據保密。Mozilla基金會的AI訓練數據分析員Stefan Baack表示，對於這些公司的訓練數據，誰都不知道有什麼。而最受業內人士歡迎的數據來源，無疑就是開源存儲庫arXiv和學術數據庫PubMed的摘要了。目前，arXiv已經託管了超過250萬篇論文的全文，PubMed包含的引用數量更是驚人，超過3700萬。雖然PubMed等網站的一些論文全文有付費牆，但論文摘要是免費瀏覽的，這部分可能早就被大科技公司抓取乾淨了。

所以，有沒有技術方法，能識別自己的論文是否被使用了呢？目前來說，還很難。倫敦帝國理工學院的計算機科學家Yves-Alexandre de Montjoye介紹道：要證明LLM使用了某篇確定的論文，是很困難的。有一個辦法，是使用論文文本中非常罕見的句子來提示模型，看看它的輸出是否就是原文中的下一個詞。

有學者曾以「哈利·波特與魔法石」第三章的開頭提示GPT-3，模型很快正確地吐出了大約一整頁書中的內容如果是的話，那就沒跑了——論文就在模型的訓練集中。如果不是呢？這也未必是有效證據，能證明論文未被使用。因為開發者可以對LLM進行編碼，讓它們過濾響應，從而不和訓練數據過於匹配。可能的情況是，我們費了老大勁，依然無法明確地證明。另一種方法，就是「成員推理攻擊」。

這種方法的原理，就是當模型看到以前見過的東西時，會對輸出更有信心，為此，De Montjoye的團隊專門開發了一種「版權陷阱」。為了設置陷阱，團隊會生成看似合理卻無意義的句子，並將其隱藏在作品中，比如白色背景上的白色文本或網頁上顯示為零寬度的字段。如果模型對未使用的控制句的困惑度，比對隱藏在文本中的控制句的困惑度更高，這就可以作為陷阱曾被看到的統計證據。