記者實測Sora2,AI視頻的GPT-3.5時刻真的來了嗎＊阿波羅新聞網

這個國慶，OpenAI CEO奧爾特曼（Sam Altman）被網友「玩兒壞了」，在各類AI生成視頻里，他坐在東北大炕上吃飯，出現在阿里和字節員工在會議室說着「互聯網黑話」，甚至成為街頭的外賣騎手。

這一切，都源於10月1日OpenAI正式推出的新一代視頻生成模型：Sora 2，一同上線的還有AI視頻社交App 「Sora」，目前用戶通過邀請碼可以免費下載使用，能一次生成10s的AI視頻，奧爾特曼本人成了這場全民AI創作中出場率最高的「演員」。

第一財經記者實測Sora2發現，相比去年發佈的初代Sora，Sora2在物理邏輯、畫面一致性、真實感上都有顯著提升，一張照片加一句提示詞，AI就能創作出有劇情、有文案的短片。

但「現實不存在了」嗎？從測試來看，Sora2尚未完全跨越「真實」這道門檻。

至頂科技總編輯、PEC聯合發起人高飛對記者表示，Sora2比起上一代Sora是一個大版本更新，在很多場景都達到了以假亂真的程度，不過，相比其他AI產品Sora2的技術並沒有代差領先，更值得關注的是其產品玩法，在打造互聯網產品方面，他認為OpenAI暫時領先於其他公司。

OpenAI在官方博客中宣稱，Sora2是「邁向GPT-3.5時刻的一步」。但AIGC創作領域的KOL@尾鰭Vicky認為，對於創作者來說，可能這一時刻還沒到來，畢竟產品還是無法徹底解決一致性和物理問題。但對於大多數普通受眾來說，玩AI視頻可能真的變成了一件很接近、且很有趣的事情。

實測Sora 2：優缺點同樣突出

毫無疑問，過去兩天，OpenAI做了一場成功的產品發佈營銷，截至發稿，在美區iOS的免費應用排行榜上，Sora APP已經空降第三位，僅次於谷歌的Gemini和OpenAI自家的ChatGPT。

由於Sora採用邀請制免費使用，在國內，閒魚上已經出現29.9元買邀請碼的生意，不過單價6.88元的邀請碼更受歡迎，界面顯示已經有近50人想要。

用戶在使用Sora2之前都需要準備一個邀請碼，邀請碼註冊後，可以再裂變出4個邀請碼，再分享給朋友。而邀請碼一旦被使用，就會自動關注邀請對象，由此逐漸形成好友網絡。從這點來看，Sora從一開始就植入了強社交基因。

有人將Sora稱之為「AI版抖音」，應用主頁是垂直視頻流，用戶可以上下滑動瀏覽不同用戶發佈的視頻，但應用上所有的內容都是AI生成的。在生成視頻時，用戶可以選擇上傳圖片並結合文字提示，也可以用「Cameo」（客串）功能，基於自己或朋友形象進行提示詞生成。

Sora2是Sora APP的技術底座，OpenAI在博客中表示，Sora2可以完成之前的視頻生成模型難以完成的事情。它比之前的系統在物理上更加精準、逼真，並且在可控性方面有了巨大的飛躍，此外，它還配備了同步音頻。

在拿到邀請碼後，第一財經記者測試了基於Sora視頻生成的效果，確實相比初代有了大幅提升，其輸出的結果已經基本能滿足C端用戶娛樂的需求，較為亮眼的地方在於，AI在鏡頭語言上很豐富，對話有想像力，音頻輸出方面口型與發音一致。但目前一個10s的視頻需等待數分鐘才能生成，速度並不快，且解像度不高。

以奧爾特曼為主角，記者給AI的提示詞是：@sama在工作敲代碼，一隻銀漸層走過來生氣地關掉了電腦主機電源，他們開始吵架。

在這個視頻中，Sora精準特寫了貓爪關電源的畫面，伴隨準確的關機音效，也展現了奧爾特曼吵架時生氣的表情和姿態，細節和環境都很真實。在發音時，人物的口型也能對得上。

值得一提的是，Sora還會補充給角色「加戲」，在提示詞中記者只提到了「開始吵架」，但AI視頻對話中，貓咪會抱怨「你一下午都沒陪我，而且風扇像拖拉機一樣」，主角則回復「先開回來，咱倆再談」。情節補充自然，配合場景非常真實。

但這一產品也並非毫無瑕疵，例如，錄入人臉輸出的視頻並不完全像本人，有用戶反饋是「似像非像」的效果，同時，Sora在事實邏輯上仍有錯誤，在一個用滅火器的場景中，滅火器噴霧的出口並不準確。

中文支持更是「重災區」。例如，有用戶讓奧爾特曼成為外賣員，其外賣服上出現了憑空生造的文字。

@尾鰭Vicky認為，Sora優點很明顯，用戶數字人的物理效果和唇型驅動效果很好，且在APP的使用交互上下了一些功夫，例如從註冊就讓用戶在"驗證"的過程中完成素材內容的錄製，且是很短的音頻和視頻，就能輸出不錯的效果。此前這樣圖生、文生視頻路徑已經出來很久，但效果應用都沒有Sora這麼自然、對用戶如此友好。

但另一方面，Sora缺點同樣突出。@尾鰭Vicky提到，雖然相比初代Sora2的物理理解問題已經更好了，但涉及到多元素的物體交互時，還是會出現手腳和臉糊等丟失細節，動作不符合物理邏輯等問題。從這個維度上來說，Sora2在模型能力的提升上並沒有邁到可以真正解決技術問題的那一步。

GPT-3.5時刻到了嗎

在官方博客中，OpenAI將2024年2月的初代 Sora比作「視頻的GPT-1時刻」，而 Sora2則被定義為「可能直接跳到了GPT-3.5的時刻」。

博客中解釋認為，之前的視頻模型會變形物體和變形現實，但Sora 2可以做一些對於之前的視頻生成模型來說非常困難的事情，如奧林匹克體操動作，在槳板上的後空翻，精確地模擬浮力和剛性的動態。模型在可控性方面也有了很大的飛躍，能夠創建複雜的背景音、語音和具有高度真實感的聲音效果。

但問題是，AI視頻的「GPT-3.5時刻」真的來了嗎？@尾鰭Vicky認為，至少對於創作者來說還沒有，因為Sora 2還是無法徹底解決一致性和物理問題。但對普通用戶來說，AI視頻的門檻已大幅降低，用戶玩AI視頻真的變成了一件很簡單且很有趣的事。

高飛認為，Sora2相比其他AI產品Sora2的技術並沒有代差領先，例如谷歌有Veo3，也有Nano banana以及世界模型Genie3，在多模態方面相當強悍。而國內的可靈、即夢也能與之一戰。

今年5月，Veo3推出時也曾在社交網絡火出圈，一些人物視頻極具真實感，被認為是AI視頻領域領先的水準。但彼時行業人士仍然認為，現階段的AI視頻對實際生產幫助仍然不算太大，並未來到真正的GPT時刻。

相較於模型技術，高飛認為Sora2更值得關注的是產品玩法。OpenAI將它打造成了一個更類似於短視頻的消費者App，其主要機制是要求用戶上傳自己的臉部數據和聲音信息做AI二創。「這樣一方面很容易拿到了最為寶貴的消費者面部數據，其次用戶基於自己的人臉創造的視頻，配合邀請碼機制，也很容易吸引親朋好友鏈式傳播。」

因此，高飛的觀察是，「OpenAI可能在模型不一定是最強，但是在打造互聯網產品方面，領先於其他所有公司。」這次Sora2不追求畫質和時長，也是典型的互聯網打法，先完成再完美，後續再疊代。

@尾鰭Vicky也認為，Sora2這次的發佈更側重APP的交互設計，並不僅是模型本身的更新。「Sora2目前的定位，似乎並不是以專業的AI視頻創作為導向，而是更專注於如何用AI視頻來完成用戶社交，做尋找應用場景的新嘗試。」

從海外市場來看，對於Sora2和Sora應用的發佈則褒貶不一。有用戶認為技術驚艷、創造力會大爆發，也有人認為這些無聊的視頻毫無意義，與宏大的AGI願景、人類福祉相悖。

有用戶發帖諷刺稱，2周前，奧爾特曼說「我們需要 7 萬億美元和 10 吉瓦來治癒癌症」，他現在表示「我們正在推出以個性化廣告形式營銷的 AI垃圾視頻」。

奧爾特曼轉發了這一帖子，並回復稱需要資金來繼續研究AI，並且幾乎所有的研究精力仍然集中在通用人工智能上。「向人們展示很酷的新技術或者產品，讓他們開心，並藉此來賺取一些錢，這也是一件好事。」奧爾特曼稱，當談到公司的最佳發展軌跡時，現實情況是微妙的。

「重要的是讓人類從這些模型的開發中受益。我們認為Sora會給世界帶來很多歡樂、創造力和聯繫。」OpenAI在博客中寫道。未來，隨着視頻模型持續進化，通用世界模擬器與機械人Agent將重塑社會，無論如何，Sora 2朝這一目標邁出了重要的一步。

責任編輯：時方　來源：第一財經轉載請註明作者、出處並保持完整。

記者實測Sora2,AI視頻的GPT-3.5時刻真的來了嗎

相關新聞