新聞 > 科教 > 正文

全球正在耗盡數據來餵養AI

人工智能(AI)正處於其流行高峰期,研究人員警告稱,這一行業可能正在耗盡訓練數據,這是運行強大的AI系統的燃料。這可能會減緩AI模型的增長,特別是大型語言模型,並可能改變AI革命的軌跡。

但是,考慮到網絡上有多少數據,為什麼潛在的數據短缺會成為一個問題?有沒有辦法解決這個風險?

為什麼高質量的數據對AI很重要

我們需要大量的數據來訓練強大、準確和高質量的AI算法。例如,ChatGPT是在570GB的文本數據,約3000億個單詞上進行訓練的。

同樣,穩定擴散算法(這是許多AI圖像生成應用的背後,如DALL-E、Lensa和Midjourney)是在包含58億個圖像-文本對的LIAON-5B數據集上進行訓練的。如果算法是在不足量的數據上訓練的,它將產生不準確或低質量的輸出。

訓練數據的質量也很重要。社交媒體帖子或模糊的照片等低質量數據很容易獲得,但不足以訓練高性能的AI模型。

從社交媒體平台獲取的文本可能存在偏見、偏見,或包含虛假信息或非法內容,這些內容可能會被模型複製。例如,當微軟試圖使用Twitter內容來訓練其AI機械人時,它學會了製造種族主義和厭惡女性的輸出。

這就是為什麼AI開發人員尋求高質量的內容,如書籍、在線文章、科學論文、維基百科和某些過濾後的網絡內容。谷歌助手是在從自我出版網站Smashwords收集的11,000本言情小說上進行訓練的,以使其更具交互性。

我們是否有足夠的數據?

AI行業一直在訓練越來越大的數據集的AI系統,這就是為什麼我們現在擁有ChatGPT或DALL-E3等高性能模型的原因。與此同時,研究表明,與用於訓練AI的數據集相比,網絡數據庫的增長速度要慢得多。

去年發表的一篇論文中,一組研究人員預測,如果當前的AI培訓趨勢繼續,到2026年之前,我們將耗盡高質量的文本數據。他們還估計,低質量的語言數據將在2030年至2050年之間耗盡,低質量的圖像數據將在2030年至2060年之間耗盡。

普華永道會計和諮詢集團預計,到2030年,AI可能為世界經濟貢獻15.7萬億美元(24.1萬億澳元)。但是,數據不足可能會減緩其發展。

我們應該擔心嗎?

雖然上述觀點可能會使一些AI粉絲感到擔憂,但情況可能沒有看起來那麼糟糕。關於AI模型未來如何發展,還有很多未知數,也有一些方法來解決數據短缺的風險。

一種機會是讓AI開發人員改進算法,使其更有效地使用他們已經擁有的數據。

未來幾年,他們可能能夠使用更少的數據,甚至可能使用更少的計算能力來訓練高性能的AI系統。這也有助於減少AI的碳足跡。

另一種選擇是使用AI來創建合成數據來訓練系統。換句話說,開發人員可以簡單地生成他們需要的數據,並為特定的AI模型進行篩選。

一些項目已經在使用合成內容,通常是從數據生成服務(如Mostly AI)中獲取的。這在未來將變得更加普遍。

開發人員還在尋找免費在線空間之外的內容,比如大型出版商和離線存儲庫擁有的內容。想想互聯網出現之前出版的數百萬篇文本。如果可以以數字形式提供,它們可以為AI項目提供新的數據來源。

新聞集團是世界上最大的新聞內容所有者之一(其許多內容都在付費牆後面),最近表示正在與AI開發人員談判內容交易。這樣的交易將迫使AI公司為培訓數據付費——因為他們迄今為止大多是免費從互聯網上抓取數據。

內容創作者抗議未經授權使用他們的內容來訓練AI模型,一些人起訴微軟、OpenAI和穩定性AI等公司。為他們的工作獲得報酬可能有助於恢復創意和AI公司之間存在的權力失衡。

阿波羅網責任編輯:李華

來源:煎蛋網

轉載請註明作者、出處並保持完整。

AI
家在美國 放眼世界 魂系中華
Copyright © 2006 - 2024 by Aboluowang

投稿 投稿