中國大廠集體「屏蔽」Sora ＊阿波羅新聞網

在AI的長河裏，從不缺一鳴驚人、一夜成名的技術。下圖，便是從Sora的示範視頻上截取的，無論是略顯蓬鬆的貓毛，還是主人被吵醒緊蹙的眉毛，與真實世界裏的畫面，別無兩樣。

半個月前，Open AI發佈了首個文生視頻模型Sora，再次讓AI界沸騰——其是第一個能夠根據人類指令生成長達一分鐘視頻的模型，上一個討論度這麼高的產品，還是ChatGPT。

從ChatGPT到Sora，這16個月裏，AI界的戰火已從千模大戰的戰場上，蔓延到各個細分應用之中。

對於普通人來說，就是原先你可以問諸如文心一言、訊飛星火等通用大模型各種問題，生成各種文字、圖片答案，現在可以通過文字描述，生成還原度極高的視頻。以下便是OpenAI的示範視頻，提示詞是一架無人機在阿馬爾菲海岸的岩石露頭上環繞着一座美麗而歷史悠久的教堂······

更令人驚訝的是，以往的視頻模型是多個真實圖片的組合，並不具備理解力，而Sora是「聽懂」人話後，進行視頻的建構。

我們能看到，在OpenAI Sora官方介紹頁里，紙飛機有了自我意識，自由翱翔。這或許就是 OpenAI終極的目標，也將是無數AI大廠的願景。

現下，Sora已然敲響戰鼓，百度、字節等以AI為標籤的大廠們是否會緊跟腳步，以及能不能造出類似模型，是擺在李彥宏、張一鳴們面前的問題。但目前大廠們都在靜默之中，等待着屬於自己的質變。

當然，一旦造出來，類Sora模型變現路徑倒是要比ChatGPT「現實」不少。

其可以是抖音、好看視頻等視頻平台的高效創作工具，也可以製作簡單的特效，給近日爆火的微短劇提供更多題材。更進一步的猜測是，影視作品中大部分特效成本、人力成本都可以省去。

不過，對於國內以大模型創業的企業來說，又增加了一道坎——還沒把ChatGPT消化掉，又來了個新課題。跟，沒有更多的精力，不跟，沒有熱度有可能涼得更快。

Sora到底牛在哪裏？

一系列文章、視頻展現效果顯示，Sora的出世意味着細分應用文生視頻模型迎來了iPhone時刻。

事實上，文生視頻並不是新鮮事兒，去年年底，全球AI企業陸陸續續發佈了自己的文生視頻模型。去年11月份，Meta發佈了視頻生成模型 Emu Video。從官方示例中可以看出，其局限於較為簡單的動作。

緊接着，Stability.ai也發佈了開源視頻生成模型 Stable Video Diffusion(SVD)，並且也在官方論文中大方承認自己的不足——生成的視頻相對缺少動態性。

也就是說，生成有高度一致性且有豐富動態性的視頻，讓視頻內容真正地動起來，是去年年底視頻生成領域中的最大挑戰。

在Sora發佈以前表現最好的，莫過於PixelDance。從展示的結果來看，在基礎模式下（用戶只需要提供一張指導圖片+文本描述），人物動作、臉部表情、相機視角控制、特效動作，Pixeldance都可以很好地完成。

國內大廠也同樣是去年年底開始佈局。

字節跳動於去年11月18日推出了文生視頻模型PixelDance，可生成有高度一致性且有豐富動態性的視頻。阿里緊隨其後也上線了Animate Anyone模型，一張人物照片，再配合骨骼動畫引導，就能生成動畫視頻。

23年末，百度發佈了文生視頻工具「度加剪輯」，據稱可以一鍵獲取最新熱點、ai生成文案、一鍵生成視頻。同時一大批「應ChatGPT而生」的AI創業公司也在去年年底參與進來，共同探索AI大模型應用。

而時間來到2024年2月中旬，OpenAI的Sora還是憑藉更逼真、流暢的效果，遙遙領先。

為何 Sora可以一騎絕塵？紅衣大叔周鴻禕給出了答案，大概的意思是，在這之前我們做視頻、做圖用的都是Diffusion，我們可以把視頻看成是多個真實圖片的組合，它並沒有真正掌握這個世界的知識。

但 Sora能像人一樣理解坦克是有巨大衝擊力的，坦克能撞毀汽車，而不會出現汽車撞毀坦克的情況。OpenAl利用它的大語言模型優勢，把 LLM和 Diffusion結合起來訓練，讓 Sora實現了對現實世界的理解和對世界的模擬兩層能力。

自Transformer架構引領通用大模型浪潮後，LLM+Diffusion這一新興研究框架或許又會有大批量的追隨者。

開源後跟不跟，不開源搞不搞，成為每個AI廠商面前的難題。

誰都能玩得起嗎？

事實上，要不要跟隨Sora這個問題，或許並不再取決於個人/公司意願，而是一些硬性條件+軟實力。例如，公司還有足夠的晶片嗎？

去年，據偲睿洞察測算，ChatGPT光是訪問階段就要耗去3萬多個A100，這儼然已是巨頭們的遊戲。按照去年一份流傳出的交流紀要顯示，大廠們手握着豐厚的資源——阿里雲AI專家提到，阿里雲在雲上有上萬片的A100，整體能夠達到10萬片，集團體量應該是阿里雲的5倍。騰訊雲利用H800加速卡打造的大模型算力集群，集群規模達到了數千台伺服器。

儘管Sora只是一個視頻模型，但對算力的渴求也不小。目前，訓練端由於暫無明確算法架構和訓練詳細數據。據民生證券測算，一個月內訓練完Youtube全部新增視頻需要約231片A100。考慮到模型都是經過多次訓練得到，算力需求仍有較大程度提高的可能性。而推理端的需求量更是驚人，假設Sora模型參數為30億，則對應1846萬個A100需求。

緊接着，第二個致命的問題是，公司有高質量的數據集嗎？現階段，谷歌、OpenAI等國際大廠們，都在爭搶高質量的文本數據集。

根據第一批大模型弄潮兒的經驗，若是沒有備足充足的彈藥，很有可能會草草離場。

據智東西不完全統計，2023年11月-2024年1月，有4家AI大模型創企宣佈關停。在這之中，其中有大廠獨立出來的團隊，有明星產品創始人新成立的公司，也有已經走過十餘年的「老牌」企業。有的缺錢、有的缺精準定位，想要玩AI，空有一腔熱血遠遠不夠。

事實上，更致命的問題是，公司有AI天才嗎？

周鴻禕表示，科技競爭最終比拼的是人才密度和深厚積累。這裏的人才密度，絕不是說規模——畢竟OpenAI的Sora團隊只有13個人，應屆博士帶隊，00後參與。

我們不得不佩服OpenAI的勇氣，將「選賢舉能」發揮得淋漓盡致，除了未知的潛能，年輕人還有一個最大的優勢——能熬。據謝賽寧透露，Sora是Bill他們在OpenAI的嘔心瀝血之作，「雖然不知道細節，但他們每天基本不睡覺高強度工作了一年」。

從以上部分團隊成員背景可以看出，其門檻極高——大部分都是名校博士畢業+實習/工作經驗，有本科學生，不過也要有着創業經歷、多段工作經歷。無論是OpenAI公司，還是人才本人，都積累了無數個量變，為質變做準備。

或許，包括OpenAI在內的AI公司們，都在等哪個「無名小卒」（要麼是MIT、清北級別的學生，要麼3-5年創業、大廠經歷，要麼是二者的結合）悟得了AI的真理，一戰成名，成為AI大神。

ChatGPT和Sora告訴我們的是，A100、高質量數據、AI天才，是新時代的稀缺物資，國內大廠尚有欠缺，從零開始的大模型創業公司們怕是跟不上熱度，也跟不上速度。

微短劇，或許是現下大廠高性價比變現方式

在AI各類資源都很有限的情況下，All in AI的大廠們在跟隨之前，必然會考慮投資回報比，也就是Sora能夠極大地改變哪些行業的模式？同時還和大廠已有業務密切相關？

答案，非短視頻行業莫屬。