譯叢:為什麼人工智能不會創造藝術？＊阿波羅新聞網

來源：2024年8月31日

譯：蘇利文

1953年，羅爾德·達爾(Roald Dahl)發表了短篇小說《偉大的自動語法機》(The Great Automatic Grammatizator)，講述了一位電氣工程師暗地裏渴望成為作家的故事。有一天，在完成了世界上最快的計算機的製造之後，工程師意識到「英語語法受嚴格得近乎數學的規則控制」。他建造了一台小說寫作機，可以在30秒內生成一篇五千字的短篇小說；一部小說則需要15分鐘，操作者需要像駕駛汽車或演奏管風琴一樣操縱手柄和腳踏板，以調節幽默和悲情的程度。由此產生的小說深受歡迎，以至於一年內，英語出版的小說中有一半是這位工程師發明的產物。

在達爾的想像中，藝術有什麼是不能通過按下按鈕來創造的嗎？現在，由像 ChatGPT這樣的生成式人工智能所生成的小說確實還不盡如人意，但可以想像，這類程序未來可能會有所改進。它們能變得有多好？它們能否在寫小說、繪畫或製作電影方面超過人類，就像計算器在加法和減法上超越人類一樣？

藝術是出了名的難以定義，好的藝術和壞的藝術也同樣難以界定。但我可以概括一下：藝術是通過做出大量選擇的產物。以小說創作為例，這一點可能最容易解釋。當你在寫小說時，幾乎每打一個字，你都會自覺或不自覺地做出選擇；簡單來說，我們可以想像一篇一萬字的短篇小說需要上萬個選擇。當你給生成式人工智能程序一個提示時，你所做的選擇非常少；如果你給出一個一百字的提示，你大約做出了一百個選擇。

如果人工智能程序根據你的提示生成了一篇萬字的故事，它必須填補你未做的所有選擇。它有多種方法可以做到這一點。一種方式是基於其他作家所做選擇的文本平均值，這種平均值通常是最無趣的選擇，這就是為什麼人工智能生成的文本往往非常乏味。另一種方式是讓程序模仿特定作家的風格，這會產生一個高度衍生的故事。這兩種情況都不是在創造有趣的藝術。

我認為同樣的基本原理也適用於視覺藝術，儘管畫家可能做出的選擇更難量化。真正的繪畫作品都帶有大量決策的印記。相比之下，使用像 DALL-E這樣的文本到圖像轉換程序的人只需輸入「一個身穿盔甲的騎士與一條噴火龍搏鬥」這樣的提示，剩下的就交給程序了。(最新版本的 DALL-E最多可接受四千個字符的提示，即數百個單詞，但也不足以描述場景的每個細節）。生成的圖像中的大部分選擇都必須借鑑網上的類似繪畫；儘管圖像可能渲染得非常精緻，但輸入提示的人卻不能為此邀功。

一些評論家認為，圖像生成器對視覺文化的影響將不亞於攝影的出現。雖然這在表面上看似有道理，但攝影與生成式人工智能類似的觀點值得進一步研究。在攝影剛剛發展起來的時候，我懷疑它並沒有被視為一種藝術媒介，因為當時並不明顯需要做出很多選擇；你只需架好相機，然後開始曝光。但隨着時間的推移，人們意識到可以用相機做很多事情，而藝術性就在於攝影師做出的眾多選擇。也許要清楚地說明這些選擇並不容易，但當你比較業餘攝影者和專業攝影師的照片時，你就會發現其中的差別。那麼問題來了：使用文本到圖像生成器是否也有類似的機會做出大量選擇？我認為答案是否定的。一個藝術家——無論是用數字還是用顏料——在創作一幅畫的過程中，隱含地做出的選擇遠比幾百字的文本提示要多得多。

我們可以想像一個文本到圖像的生成器，在多次會話後，你可以在文本框中輸入數以萬計的文字，以實現對生成圖像的極其精細的控制；這將類似於純文本界面的 Photoshop。我想說，一個人可以使用這樣的程序，仍然配得上藝術家的稱號。電影導演貝內特·米勒(Bennett Miller)曾使用 DALL-E2生成了一些非常引人注目的圖像，並在高古軒畫廊展出；為此，他精心設計了詳細的文本提示，然後一遍遍地指示 DALL-E修訂和操控生成的圖像。他生成了超過十萬張圖像，才得到了展覽中的二十張圖片。但他說，在後來發佈的DALL-E版本中，他無法獲得類似的結果。我猜測這可能是因為米勒使用 DALL-E做了一些程序本不打算做的事情；就好像他黑進了微軟的畫圖軟件，讓它表現得像 Photoshop，但新版畫圖軟件一發佈，他的黑進就失效了。OpenAI可能並不打算為像米勒這樣的用戶打造產品，因為一款需要用戶花費數月時間來創建圖像的產品對廣大用戶來說並不具有吸引力。該公司希望提供一種只需花費很少精力就能生成圖像的產品。

更難想像一個經過多次訓練的程序能幫助你寫出一部好小說。這個假設的寫作程序可能需要你輸入十萬字的提示，以便它生成一個完全不同的十萬字，組成你所設想的小說。我不清楚這樣的程序會是什麼樣子。從理論上講，如果存在這樣一個程序，用戶或許可以被稱為作者。但是，我也不認為 OpenAI這樣的公司會想要創建需要用戶投入與零基礎寫小說相同努力的 ChatGPT版本。生成式人工智能的賣點在於，這些程序生成的內容遠遠超過你的投入，而這恰恰是阻礙了它們成為藝術家或作家有效工具的原因。

推廣生成式人工智能程序的公司聲稱，它們將釋放創造力。實質上，他們是在說，藝術可以只靠靈感而無需汗水，但這兩者不能輕易分開。我並不是說藝術必須包含枯燥的工作。我想說的是，藝術需要在每一個層面上做出選擇；在實施過程中做出的無數微觀選擇與在構思過程中做出的少數宏觀選擇，對最終作品同樣重要。在藝術創作的選擇上，把「宏觀」等同於「重要」是藝術創作中的一個誤區；藝術性正體現在宏觀與微觀之間的相互關係上。

相信靈感高於一切，我懷疑是不熟悉藝術媒介的表現。我認為，即使一個人的目標是創造娛樂而不是高雅藝術，情況也是如此。人們往往低估了娛樂所需的努力；一部驚悚小說可能達不到卡夫卡對書的理想——「鑿開我們內心冰凍海洋的斧頭」——但它仍然可以像瑞士手錶一樣精雕細琢。一部有效的驚悚小說不僅僅是它的前提或情節。我懷疑如果用一個語義上等同的句子替換掉驚悚小說中的每一句句子，最終得到的小說是否同樣引人入勝。這就意味着，其中的句子——以及它們所代表的微觀選擇——有助於決定驚悚小說的效果。

許多小說家都有過這樣的經歷：有人找到他們，說自己有一個絕妙的小說構思，願意與他們分享，以換取五五分成的收益。這樣的人無意中透露出，他們認為遣詞造句是一件麻煩事，而不是散文敘事的基本要素。生成式人工智能吸引那些認為自己可以在媒介中表達自己，而不必真正投入的人。但傳統小說、繪畫和電影的創作者之所以被這些藝術形式所吸引，是因為他們看到了每種媒介所蘊含的獨特表達潛力。正是因為他們渴望充分利用這些潛力，他們的作品才會令人滿意，無論作為娛樂還是作為藝術。

當然，大多數寫作，無論是文章、報告還是電子郵件，都不會被期望包含數千個選擇。在這種情況下，自動完成任務有什麼害處嗎？讓我再小結一下：任何值得讀者關注的文章都是寫作者付出努力的結果。而這結果並不能保證最終值得一讀，但沒有努力，就不可能創作出有價值的作品。你在閱讀個人電子郵件與閱讀商業報告時的注意力是不同的，在這兩種情況下，只有寫作者投入了思考才值得關注。

最近，谷歌在巴黎奧運會期間為 Gemini播放了一則廣告，Gemini是 OpenAI的 GPT-4的競爭對手。廣告中，一位父親使用 Gemini寫了一封粉絲信，他的女兒將這封信寄給一位激勵她的奧運選手。在遭到廣泛反對後，谷歌撤下了這條廣告；一位媒體教授稱其為「我見過的最令人不安的廣告之一」。值得注意的是，雖然廣告並沒有涉及高深的藝術創作或複雜的創意工作，但人們的反應如此強烈。沒有人會期望孩子寫給運動員的粉絲信會有多出眾；如果是小女孩自己寫的信，很可能與大多數其他信件無異。無論是對寫信的孩子還是對收到信的運動員來說，孩子的粉絲信的意義都在於它的真摯而非優雅。

我們中的許多人都寄過商店裏買來的賀卡，因為我們知道，收信人會清楚地知道，這些話不是我們自己寫的。我們不會用自己的筆跡複製賀卡上的文字，因為那會讓人覺得不誠實。程式設計師西蒙·威利森（Simon Willison）將大型語言模型的訓練描述為「為受版權保護的數據洗錢」，我認為這是思考生成式人工智能程序吸引力的有用方式：它們可以讓你從事類似剽竊的行為，但卻沒有任何負罪感，因為你甚至不清楚自己在抄襲。

有人聲稱，大型語言模型並沒有」清洗「它們所訓練的文本，而是從中學習，就像人類作家從他們閱讀的書籍中學習一樣。但大型語言模型不是作家，甚至不是語言的使用者。顧名思義，語言是一種交流系統，需要有交流的意圖。你的手機的自動補全功能可能會提供好的建議，也可能提供不好的建議，但無論哪種情況，它都不是想對你或你正發短訊的人傳達任何信息。ChatGPT可以生成連貫的句子，這讓我們容易誤以為它在以某種方式理解語言，而你的手機自動補全功能卻做不到，它並沒有更多的交流意圖。

讓 ChatGPT生成一系列詞語，如「見到你我很高興」，是非常容易的。關於大型語言模型的工作原理，我們還有很多不明白的地方，但有一點我們可以肯定，那就是 ChatGPT見到你並不真的高興。狗可以表達它見到你很高興，開口說話前的兒童也可以，儘管兩者都缺乏使用語言的能力。ChatGPT既沒有感覺，也沒有欲望，這種缺乏意圖的情況正是 ChatGPT沒有真正使用語言的原因。讓「見到你我很高興」這句話成為語言表達的原因，並不在於它所組成的文本標記序列是否構造完整；而是它傳達某種意圖的能力。

因為語言對我們來說如此自然，所以我們很容易忘記它是建立在主觀感受和想要傳達這種感受的經驗之上的。當大型語言模型發出連貫的句子時，我們很容易將這些體驗投射到它身上，但這樣做就會陷入模仿的陷阱；這就像蝴蝶翅膀上進化出大黑斑，能讓鳥兒誤以為它們是大眼睛的掠食者。在某種情況下，黑斑是有效的；鳥類不太可能吃有黑斑的蝴蝶，而蝴蝶只要能活下來，並不在乎為什麼沒有被吃掉。但是，蝴蝶和真正對鳥類構成威脅的掠食者之間還是有很大區別的。

使用生成式人工智能來幫助寫作的人可能會說，他們是從模型所訓練的文本中汲取靈感，但我要再次強調，這與我們通常所說的作家從另一個作家那裏獲得靈感的含義不同。想想看，一個大學生在提交上來的論文中只引用了一本書中的一段長達五頁的引文，並說這段引文恰好表達了她想說的話，比她自己說的更好。即使該學生完全坦誠地向指導老師講述了自己的做法，但說她是從所引用的書中獲得靈感也是不準確的。儘管大語言模型可以對引文進行重新措辭，使其無法識別來源，但這並不能改變事情的根本性質。

正如語言學家艾米麗·M·本德(Emily M. Bender)所指出的，教師要求學生寫論文並不是因為世界需要更多的學生論文。寫論文的意義在於加強學生的批判性思維能力；就像無論運動員從事什麼運動，舉槓鈴都是有用的一樣，寫論文可以培養大學生最終從事任何工作所需的技能。用 ChatGPT來完成作業就像把叉車開進健身房，永遠無法提高你的認知能力。

並不是所有的寫作都需要有創意，發自內心，甚至不一定要特別出色；有時它只需要存在。這類寫作可能服務於其他目標，例如吸引廣告瀏覽量或滿足官僚要求。當人們被要求撰寫此類文本時，我們很難責怪他們使用任何可用的工具來加快進程。但問題在於，世界真的會因為有更多這樣低投入的文本而變得更好嗎？聲稱如果我們拒絕使用大型語言模型，那麼創作低質量文本的需求就會消失，這顯然是不現實的。不過，我認為不可避免的是，隨着我們越來越多地使用大型語言模型來滿足這些需求，這些需求最終也會變得越來越多。我們正在進入這樣一個時代：有人可能會用大型語言模型根據一個列表中生成一份文檔，然後將其發送給另一個人，後者會使用大型語言模型將該文檔濃縮回一個列表。有誰會嚴肅地認為這是進步嗎？

有一天，我們的電腦程式可以做任何人類能做的任何事情，這並非不可能，但是，與推廣人工智能的公司所宣稱的相反，這並不是我們在未來幾年內就能看到的。即使在與創造力完全無關的領域，目前的人工智能程序也有很大的局限性，這使我們有充分的理由質疑它們是否值得被稱為智能。

計算機科學家弗朗索瓦·喬萊(François Chollet)提出了以下區別：技能是指你在某項任務中的表現，而智能則是指你獲得新技能的效率。我認為這很好地反映了我們對人類的直覺。大多數人都能在充分練習的情況下學會一項新技能，但一個人掌握技能的速度越快，我們就認為他越聰明。這個定義的有趣之處在於，與智商測試不同，它也適用於非人類實體；當一隻狗快速學會一個新把戲時，我們認為這是聰明的表現。

2019年，研究人員進行了一項實驗，教老鼠如何開車。他們把老鼠放在裝有三根銅線的小塑料容器里；當老鼠把爪子放在其中一根銅線上時，容器就會向前走，或者向左轉或向右轉。小白鼠可以看到房間另一側有一盤食物，並試圖讓它們的交通工具駛向那盤食物。研究人員每次訓練老鼠五分鐘，經過二十四次練習後，老鼠已經熟練掌握了駕駛技術。二十四次試驗足以讓老鼠掌握一項在物種進化史上可能從未遇到過的任務。我認為這就是智能的很好例證。

現在來看看目前廣受讚譽的人工智能程序。谷歌 DeepMind開發的程序 AlphaZero下棋比人類任何棋手都好，但在訓練過程中，它下了4400萬盤棋，遠遠超過人類一生所能下的棋。要想掌握一種新遊戲，它也必須接受類似的大量訓練。根據喬萊的定義，像阿爾法零這樣的程序具有很高的技能，但它們並不特別聰明，因為它們在獲取新技能方面效率不高。目前，如果程式設計師事先沒有得到任務的相關信息，那麼即使是一項簡單的任務，也不可能在短短24次試驗中就學會。

經過數百萬英里駕駛訓練的自動駕駛汽車仍然可能撞上翻倒的拖車卡車，因為在它們的訓練數據中並不常見這種情況，而人類第一次上駕駛課就知道要停下車來。與我們求解代數方程的能力相比，我們應對陌生環境的能力才是我們認為人類具有智慧的根本原因。在獲得這種能力之前，計算機將無法取代人類，而這仍是一個漫長的過程；目前，我們只是在尋找可以用渦輪增壓自動補全的工作。

儘管人工智能生成技術被炒作了多年，但其大幅提高經濟生產力的能力依然停留在理論層面。(今年早些時候，高盛發佈了一份題為《生成式AI：投入太多，收益太少？》(Gen AI: Too Much Spend, Too Little Benefit?》的報告)生成式人工智能最成功的任務是降低我們的期望值，無論對我們所閱讀的內容如此，也對我們為他人創作的文字如此。從根本上說，這是一種去人性化的技術，因為它將我們視為低於真實身份的存在：意義的創造者和領悟者。它減少了世界上的意圖和目的性。

有些人為大型語言模型辯護，說人類所說或所寫的大部分內容並不是原創。這是事實，但也無關緊要。當有人對你說「對不起」時，別人過去是否說過「對不起」並不重要；「對不起」只是一串在統計學上無足輕重的文字，並不重要。如果對方是真誠的，他的道歉就是有價值、有意義的，即使之前已有人說過對不起。同樣，當你對別人說「很高興見到你」時，即使缺乏新意，你說的話也是有意義的。

藝術也是如此。無論你創作的是小說、繪畫還是電影，你都在進行一場你與觀眾之間的交流。你創造的東西不必與人類歷史上所有先前的藝術作品截然不同，它仍然可以是有價值的；你是作品的作者，你的作品源自你獨特的生活經歷，並在特定的時刻抵達欣賞你作品的觀眾面前，這就是它的新意所在。我們都是前人的產物，但只有在與他人的互動中生活，我們才能為世界帶來意義。這是自動補全算法永遠無法做到的，別信任何相反的觀點。♦

責任編輯： 李廣松 　來源：紐約客轉載請註明作者、出處並保持完整。

譯叢:為什麼人工智能不會創造藝術？

相關新聞