OpenAI首個AI視頻模型發佈 60秒視頻全AI生成＊阿波羅新聞網

「一名時尚女子走在充滿霓虹燈和廣告牌的標誌性東京街頭，她穿着黑色皮夾克、紅長裙和黑靴子，拎着黑色手袋，戴着太陽鏡，塗着紅色口紅，走路自信又隨意。街道潮濕且反光，在燈光映射下形成鏡面效果，行人走來走去。」這段60秒的視頻，並非真實拍攝，而是OpenAI最新的「文生視頻」模型Sora，這一段文字描述就是段Prompt（提示詞）。

當地時間2月15日，人工智能（AI）巨頭OpenAI宣佈，正在研發「文生視頻」模型Sora，可以創建長達60秒的視頻，其中包含高度詳細的場景、複雜的攝像機運動以及充滿活力的情感的多個角色，也可以根據靜態圖像製作動畫。OpenAI稱，目前紅隊成員（red teamers）可以使用Sora來評估關鍵的危害或風險，還向一些視覺藝術家、設計師和電影製作人提供訪問權限，以獲取有關如何改進該模型以對創意專業人士最有幫助的反饋。

根據OpenAI官網，Sora能夠生成具有多個角色、特定類型的運動以及主體和背景的準確細節的複雜場景。Sora不僅了解用戶在提示中提出的要求，還了解這些東西在物理世界中的存在方式。

在部分場景中，Sora的效果足以「以假亂真」，例如一段8秒的東京地鐵車廂窗戶視頻，除了行車過程中，列車窗戶上的反射外，視頻中間人物倒影也非常逼真。再來看另一段視頻，官方提示詞為：「雪後的東京城熙熙攘攘。鏡頭穿過繁忙城市街道，跟隨幾個人享受美麗的雪天並在附近的攤位購物。絢麗的櫻花花瓣隨着雪花隨風飄揚。」Sora生成的視頻呈現了所有要素，且鏡頭不在是單鏡頭，而是一直向前且會變換方向的運動鏡頭。需要注意的是，目前Sora屬於半成品，OpenAI稱，它可能難以準確模擬複雜場景的物理原理，並且可能無法理解因果關係的具體實例。例如，一個人可能咬了一口餅乾，但之後餅乾可能沒有咬痕。還可能會混淆提示的空間細節，例如混淆左右，並且可能難以精確描述隨着時間推移發生的事件，例如遵循特定的相機軌跡。 OpenAI官網介紹，Sora是一種擴散模型，它從看起來像靜態噪聲的視頻開始生成視頻，然後通過多個步驟消除噪聲來逐漸對其進行轉換生成視頻。Sora能夠一次生成整個視頻或擴展生成的視頻以使其更長。通過一次為模型提供多個幀的預見，OpenAI解決了一個具有挑戰性的問題，即確保主題即使暫時離開視野也保持不變。

與GPT模型類似，Sora使用Transformer架構。Sora建立在過去對DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述技術，該技術涉及為視覺訓練數據生成高度描述性的標題。因此，該模型能夠更精準遵循生成用戶的文本指令。

OpenAI表示，Sora是能夠理解和模擬現實世界的模型基礎，相信這一功能將成為實現AGI（通用人工智能）的重要里程碑。

Sora視頻一出，立刻震驚業界。儘管這不是首個AI視頻，其他企業也有類似文本生成視頻的AI模型，谷歌正在測試名為Lumiere的模型，Meta則有名為Emu的模型，還有人工智能初創企業Runway也在開發相應產品來幫助製作視頻，但外媒指出，工智能專家和分析師表示，Sora 視頻的長度和質量超出了迄今為止所見的水平。

美國伊利諾伊大學香檳分校信息科學教授Ted Underwood指出，沒想到在兩三年內還會有如此持續連貫水平的視頻生成技術，OpenAI的視頻可能展現了該模型的最佳性能。

多名AI從業者稱，從Sora公佈的預覽視頻來看，簡直太「瘋狂」。在國外Reditt社區，有個網友提問，今天OpenAI公佈的Sora模型是否會成為自動化對於經濟影響的里程碑？下面有將近100條回復，有網友稱，起初ChatGPT的發佈讓用戶看到了一切皆有可能，而現在人工智能正在不斷進步發展，讓用戶看到了強大的技術能力。

有海外網友評論稱，Sora的出現是一項改變世界的產品，但同時也指出，Sora生成的視頻或許讓人工智能專家也難以分辨真假，這或許是個棘手的問題。

外媒援引布法羅大學Media Forensic Lab主任Siwei Lyu的話稱，隨着像Sora這樣的人工智能程序不斷出現，除了由圖像和音頻深度偽造構成的現有挑戰之外，視頻偽造技術將帶來更多挑戰。卡內基國際事務倫理委員會研究AI和監控技術的高級研究員Arthur Holland Michel則表示，當像Sora這樣的工具落入那些確實想利用新技術疊代造成傷害的老謀深算者手中時，事情會變得更加糟糕，「每當有功能更強大的新產品發佈時，其可能被濫用的方式也會越多。」

不過，AI視頻或許能給電影製造帶來不少驚喜。電影導演和視覺特效專家Michael Gracey說，看看僅僅在圖像生成的一年裏就取得了如此成就。「一年之後，我們會在哪裏？」Gracey預測，不久之後，像Sora這樣的人工智能工具將使電影製作者能夠仔細控制他們的輸出，從頭開始製作各種視頻。

Gracey認為，以後或許不再需要一個由100-200名藝術家組成的團隊來用3年時間完成動畫長片，但他也提醒，AI工具是根據現實生活中藝術家的作品進行訓練，而不給予他們補償，這是一個大問題。「當它剝奪了其他人的創造力、工作、想法和執行力，而不給予他們應有的榮譽和經濟報酬時，那就不好了。」

需要指出的是，實現AGI的背後需要大量的算力來支持，也就是足夠多的GPU（圖形處理晶片），目前英偉達是全球生產GPU的霸主，但晶片市場一直面臨供不應求的局面。也正是因此大模型的算力需求，OpenAI行政總裁山姆·奧特曼（Sam Altman）正試圖籌集萬億美元來重塑全球半導體產業。

就在一周前，據外媒報道，奧特曼正與包括阿聯酋政府在內的投資者洽談，希望籌集到數萬億美元的資金來提高全球晶片製造能力，為其AI研發提供充足動力，有知情人士稱，該項目可能需要5-7萬億美元。

7萬億美元是什麼概念？

英偉達CEO黃仁勛12日曾在公開場合有些諷刺地回應稱，「（7萬億美元）顯然能買下所有的GPU……如果你認為計算機無法發展得更快，可能會得出這樣的結論：我們需要14顆行星、3個星系和4個太陽來為這一切提供燃料。但是，計算機架構其實在不斷地進步。」

外媒援引知情人士的話稱，奧特曼正在建議OpenAI、投資者、晶片製造商和能源供應商之間建立合作，將共同出資建造晶片工廠。最近數周時間，奧特曼已經與多位人士進行了會談，包括軟銀和台積電等，甚至包括阿聯酋的謝赫·塔農·本·扎耶德·阿勒納哈揚（Sheikh Tahnoun bin Zayed Al Nahyan），他是阿聯酋總統的兄弟，也是阿布扎比多個主權財富基金的主席。

按照奧特曼的想法，未來數年內要建立數十家晶片代工工廠，建造所需的資金由中東投資者提供，而台積電來製造和運營這些工廠。

責任編輯：李華　來源：澎湃新聞轉載請註明作者、出處並保持完整。