Nature的一篇文章透露:你發過的paper,很可能已經被拿去訓練模型了!有的出版商靠賣數據,已經狂賺2300萬美元。然而辛辛苦苦碼論文的作者們,卻拿不到一分錢,這合理嗎?全球數據告急,怎麼辦?論文來湊!最近,Nature的一篇文章向我們揭露了這樣一個事實:連科研論文,都被薅去訓AI了……

據悉,很多學術出版商,已經向科技公司授權訪問自家的論文,用來訓練AI模型。一篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓AI的數據。這合理嗎?
更可氣的是,自己的論文還被出版商拿來牟利了。根據Nature報告,上個月英國的學術出版商Taylor& Francis已經和微軟簽署了一項價值1000萬美元的協議,允許微軟獲取它的數據,來改進AI系統。而6月的一次投資者更新顯示,美國出版商Wiley允許某家公司使用其內容訓模型後,直接一舉豪賺2300萬美元!但這個錢,跟廣大論文的作者是半毛錢關係都沒有的。
而且,華盛頓大學AI研究員Lucy Lu Wang還表示,即使不在可開放獲取的存儲庫內,任何可在線閱讀的內容,都很可能已經被輸入LLM中。更可怕的是,如果一篇論文已經被用作模型的訓練數據,在模型訓練完成後,它是無法刪除的。如果現在,你的論文還尚未被用於訓練AI,那也不用擔心——它應該很快就會了!
數據集如黃金,各大公司紛紛出價
我們都知道,LLM需要在海量數據上進行訓練的,而這些數據通常是從互聯網上抓取的。正是從這些訓練數據中數十億的token中,LLM推導出模式,從而生成文本、圖像、代碼。而學術論文篇幅又長,信息密度又高,顯然就是能餵給LLM的最有價值的數據之一。而且,在大量科學信息上訓練LLM,也能讓它們在科學主題上的推理能力大大提高。Wang已經共同創建了基於8110萬篇學術論文的數據集S2ORC。起初,S2ORC數據集是為了文本挖掘而開發的,但後來,它被用於訓練LLM。2020年非營利組織Eleuther AI構建的Pile,是NLP研究中應用最廣泛的大型開源數據集之一,總量達到800GB。其中就包含了大量學術來源的文本,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。

前段時間開源的1T token數據集MINT也挖掘到了arXiv這個寶藏,共提取到了87萬篇文檔、9B token。從下面這張數據處理流程圖中,我們就能發現論文數據的質量有多高——幾乎不需要太多的過濾和去重,使用率極高。

而現在,為了應對版權爭議,各大模型公司也開始真金白銀地出價,購買高質量數據集了。今年,「金融時報」已經把自己的內容以相當可觀的價格,賣給了OpenAI;Reddit也和谷歌達成了類似的協議。而以後,這樣的交易也少不了。
證明論文曾被LLM使用,難度極高
有些AI開發者會開放自己的數據集,但很多開發AI模型的公司,會對大部分訓練數據保密。Mozilla基金會的AI訓練數據分析員Stefan Baack表示,對於這些公司的訓練數據,誰都不知道有什麼。而最受業內人士歡迎的數據來源,無疑就是開源存儲庫arXiv和學術數據庫PubMed的摘要了。目前,arXiv已經託管了超過250萬篇論文的全文,PubMed包含的引用數量更是驚人,超過3700萬。雖然PubMed等網站的一些論文全文有付費牆,但論文摘要是免費瀏覽的,這部分可能早就被大科技公司抓取乾淨了。
所以,有沒有技術方法,能識別自己的論文是否被使用了呢?目前來說,還很難。倫敦帝國理工學院的計算機科學家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。有一個辦法,是使用論文文本中非常罕見的句子來提示模型,看看它的輸出是否就是原文中的下一個詞。

有學者曾以「哈利·波特與魔法石」第三章的開頭提示GPT-3,模型很快正確地吐出了大約一整頁書中的內容如果是的話,那就沒跑了——論文就在模型的訓練集中。如果不是呢?這也未必是有效證據,能證明論文未被使用。因為開發者可以對LLM進行編碼,讓它們過濾響應,從而不和訓練數據過於匹配。可能的情況是,我們費了老大勁,依然無法明確地證明。另一種方法,就是「成員推理攻擊」。

這種方法的原理,就是當模型看到以前見過的東西時,會對輸出更有信心,為此,De Montjoye的團隊專門開發了一種「版權陷阱」。為了設置陷阱,團隊會生成看似合理卻無意義的句子,並將其隱藏在作品中,比如白色背景上的白色文本或網頁上顯示為零寬度的字段。如果模型對未使用的控制句的困惑度,比對隱藏在文本中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統計證據。

版權爭議
然而,即使能證明LLM是在某篇論文上訓練的,又能怎麼辦呢?這裏,就存在一個由來已久的爭議。在出版商看來,如果開發者在訓練中使用了受版權保護的文本,且沒有獲得許可,那鐵定就是侵權。但另一方卻可以這樣反駁:大模型並沒有抄襲啊,所以何來侵權之說?
的確,LLM並沒有複製任何東西,它只是從訓練數據中獲取信息,拆解這些內容,然後利用它們學習生成新的文本。其中更加複雜的問題,是如何劃清商用和學術研究用途。根據目前arXiv網站上的使用條款,如果是個人或研究用途,抓取、存儲、使用所有的電子預印本論文和網站元數據都是合規且被支持的

然而,arXiv對商業方面的使用是嚴令禁止的。那麼問題來了,如果某個商業公司使用了學術機構發佈的開源數據集訓練自己的商業模型,且數據來源含有arXiv或類似學術出版機構,這怎麼算?此外,出版商在用戶的訂閱條款中往往也沒有明確規定,能否將論文用作模型的訓練數據。















