全球正在耗盡數據來餵養AI科教頻道|科教興國|教育新聞☀阿波羅新聞網

人工智能(AI)正處於其流行高峰期，研究人員警告稱，這一行業可能正在耗盡訓練數據，這是運行強大的AI系統的燃料。這可能會減緩AI模型的增長，特別是大型語言模型，並可能改變AI革命的軌跡。

但是，考慮到網絡上有多少數據，為什麼潛在的數據短缺會成為一個問題？有沒有辦法解決這個風險？

為什麼高質量的數據對AI很重要

我們需要大量的數據來訓練強大、準確和高質量的AI算法。例如，ChatGPT是在570GB的文本數據，約3000億個單詞上進行訓練的。

同樣，穩定擴散算法(這是許多AI圖像生成應用的背後，如DALL-E、Lensa和Midjourney)是在包含58億個圖像-文本對的LIAON-5B數據集上進行訓練的。如果算法是在不足量的數據上訓練的，它將產生不準確或低質量的輸出。

訓練數據的質量也很重要。社交媒體帖子或模糊的照片等低質量數據很容易獲得，但不足以訓練高性能的AI模型。

從社交媒體平台獲取的文本可能存在偏見、偏見，或包含虛假信息或非法內容，這些內容可能會被模型複製。例如，當微軟試圖使用Twitter內容來訓練其AI機械人時，它學會了製造種族主義和厭惡女性的輸出。

這就是為什麼AI開發人員尋求高質量的內容，如書籍、在線文章、科學論文、維基百科和某些過濾後的網絡內容。谷歌助手是在從自我出版網站Smashwords收集的11,000本言情小說上進行訓練的，以使其更具交互性。

我們是否有足夠的數據？

AI行業一直在訓練越來越大的數據集的AI系統，這就是為什麼我們現在擁有ChatGPT或DALL-E3等高性能模型的原因。與此同時，研究表明，與用於訓練AI的數據集相比，網絡數據庫的增長速度要慢得多。

去年發表的一篇論文中，一組研究人員預測，如果當前的AI培訓趨勢繼續，到2026年之前，我們將耗盡高質量的文本數據。他們還估計，低質量的語言數據將在2030年至2050年之間耗盡，低質量的圖像數據將在2030年至2060年之間耗盡。

普華永道會計和諮詢集團預計，到2030年，AI可能為世界經濟貢獻15.7萬億美元(24.1萬億澳元)。但是，數據不足可能會減緩其發展。

我們應該擔心嗎？

雖然上述觀點可能會使一些AI粉絲感到擔憂，但情況可能沒有看起來那麼糟糕。關於AI模型未來如何發展，還有很多未知數，也有一些方法來解決數據短缺的風險。

一種機會是讓AI開發人員改進算法，使其更有效地使用他們已經擁有的數據。

未來幾年，他們可能能夠使用更少的數據，甚至可能使用更少的計算能力來訓練高性能的AI系統。這也有助於減少AI的碳足跡。

另一種選擇是使用AI來創建合成數據來訓練系統。換句話說，開發人員可以簡單地生成他們需要的數據，並為特定的AI模型進行篩選。

一些項目已經在使用合成內容，通常是從數據生成服務(如Mostly AI)中獲取的。這在未來將變得更加普遍。

開發人員還在尋找免費在線空間之外的內容，比如大型出版商和離線存儲庫擁有的內容。想想互聯網出現之前出版的數百萬篇文本。如果可以以數字形式提供，它們可以為AI項目提供新的數據來源。

新聞集團是世界上最大的新聞內容所有者之一(其許多內容都在付費牆後面)，最近表示正在與AI開發人員談判內容交易。這樣的交易將迫使AI公司為培訓數據付費——因為他們迄今為止大多是免費從互聯網上抓取數據。

內容創作者抗議未經授權使用他們的內容來訓練AI模型，一些人起訴微軟、OpenAI和穩定性AI等公司。為他們的工作獲得報酬可能有助於恢復創意和AI公司之間存在的權力失衡。