新聞 > 科教 > 正文

記者實測Sora2,AI視頻的GPT-3.5時刻真的來了嗎

這個國慶,OpenAI CEO奧爾特曼(Sam Altman)被網友「玩兒壞了」,在各類AI生成視頻里,他坐在東北大炕上吃飯,出現在阿里和字節員工在會議室說着「互聯網黑話」,甚至成為街頭的外賣騎手。

這一切,都源於10月1日OpenAI正式推出的新一代視頻生成模型:Sora 2,一同上線的還有AI視頻社交App 「Sora」,目前用戶通過邀請碼可以免費下載使用,能一次生成10s的AI視頻,奧爾特曼本人成了這場全民AI創作中出場率最高的「演員」。
 


第一財經記者實測Sora2發現,相比去年發佈的初代Sora,Sora2在物理邏輯、畫面一致性、真實感上都有顯著提升,一張照片加一句提示詞,AI就能創作出有劇情、有文案的短片。

但「現實不存在了」嗎?從測試來看,Sora2尚未完全跨越「真實」這道門檻。

至頂科技總編輯、PEC聯合發起人高飛對記者表示,Sora2比起上一代Sora是一個大版本更新,在很多場景都達到了以假亂真的程度,不過,相比其他AI產品Sora2的技術並沒有代差領先,更值得關注的是其產品玩法,在打造互聯網產品方面,他認為OpenAI暫時領先於其他公司。

OpenAI在官方博客中宣稱,Sora2是「邁向GPT-3.5時刻的一步」。但AIGC創作領域的KOL@尾鰭Vicky認為,對於創作者來說,可能這一時刻還沒到來,畢竟產品還是無法徹底解決一致性和物理問題。但對於大多數普通受眾來說,玩AI視頻可能真的變成了一件很接近、且很有趣的事情。

實測Sora 2:優缺點同樣突出

毫無疑問,過去兩天,OpenAI做了一場成功的產品發佈營銷,截至發稿,在美區iOS的免費應用排行榜上,Sora APP已經空降第三位,僅次於谷歌的Gemini和OpenAI自家的ChatGPT

由於Sora採用邀請制免費使用,在國內,閒魚上已經出現29.9元買邀請碼的生意,不過單價6.88元的邀請碼更受歡迎,界面顯示已經有近50人想要。

 

 


用戶在使用Sora2之前都需要準備一個邀請碼,邀請碼註冊後,可以再裂變出4個邀請碼,再分享給朋友。而邀請碼一旦被使用,就會自動關注邀請對象,由此逐漸形成好友網絡。從這點來看,Sora從一開始就植入了強社交基因。

有人將Sora稱之為「AI版抖音」,應用主頁是垂直視頻流,用戶可以上下滑動瀏覽不同用戶發佈的視頻,但應用上所有的內容都是AI生成的。在生成視頻時,用戶可以選擇上傳圖片並結合文字提示,也可以用「Cameo」(客串)功能,基於自己或朋友形象進行提示詞生成。

Sora2是Sora APP的技術底座,OpenAI在博客中表示,Sora2可以完成之前的視頻生成模型難以完成的事情。它比之前的系統在物理上更加精準、逼真,並且在可控性方面有了巨大的飛躍,此外,它還配備了同步音頻。

在拿到邀請碼後,第一財經記者測試了基於Sora視頻生成的效果,確實相比初代有了大幅提升,其輸出的結果已經基本能滿足C端用戶娛樂的需求,較為亮眼的地方在於,AI在鏡頭語言上很豐富,對話有想像力,音頻輸出方面口型與發音一致。但目前一個10s的視頻需等待數分鐘才能生成,速度並不快,且解像度不高。

以奧爾特曼為主角,記者給AI的提示詞是:@sama在工作敲代碼,一隻銀漸層走過來生氣地關掉了電腦主機電源,他們開始吵架。

 

 

 



在這個視頻中,Sora精準特寫了貓爪關電源的畫面,伴隨準確的關機音效,也展現了奧爾特曼吵架時生氣的表情和姿態,細節和環境都很真實。在發音時,人物的口型也能對得上。

值得一提的是,Sora還會補充給角色「加戲」,在提示詞中記者只提到了「開始吵架」,但AI視頻對話中,貓咪會抱怨「你一下午都沒陪我,而且風扇像拖拉機一樣」,主角則回復「先開回來,咱倆再談」。 情節補充自然,配合場景非常真實。

但這一產品也並非毫無瑕疵,例如,錄入人臉輸出的視頻並不完全像本人,有用戶反饋是「似像非像」的效果,同時,Sora在事實邏輯上仍有錯誤,在一個用滅火器的場景中,滅火器噴霧的出口並不準確。

 

 

 


中文支持更是「重災區」。例如,有用戶讓奧爾特曼成為外賣員,其外賣服上出現了憑空生造的文字。

 

 

 



@尾鰭Vicky認為,Sora優點很明顯,用戶數字人的物理效果和唇型驅動效果很好,且在APP的使用交互上下了一些功夫,例如從註冊就讓用戶在"驗證"的過程中完成素材內容的錄製,且是很短的音頻和視頻,就能輸出不錯的效果。此前這樣圖生、文生視頻路徑已經出來很久,但效果應用都沒有Sora這麼自然、對用戶如此友好。

但另一方面,Sora缺點同樣突出。@尾鰭Vicky提到,雖然相比初代Sora2的物理理解問題已經更好了,但涉及到多元素的物體交互時,還是會出現手腳和臉糊等丟失細節,動作不符合物理邏輯等問題。從這個維度上來說,Sora2在模型能力的提升上並沒有邁到可以真正解決技術問題的那一步。

GPT-3.5時刻到了嗎

在官方博客中,OpenAI將2024年2月的初代 Sora比作「視頻的GPT-1時刻」,而 Sora2則被定義為「可能直接跳到了GPT-3.5的時刻」。

博客中解釋認為,之前的視頻模型會變形物體和變形現實,但Sora 2可以做一些對於之前的視頻生成模型來說非常困難的事情,如奧林匹克體操動作,在槳板上的後空翻,精確地模擬浮力和剛性的動態。模型在可控性方面也有了很大的飛躍,能夠創建複雜的背景音、語音和具有高度真實感的聲音效果。

但問題是,AI視頻的「GPT-3.5時刻」真的來了嗎?@尾鰭Vicky認為,至少對於創作者來說還沒有,因為Sora 2還是無法徹底解決一致性和物理問題。但對普通用戶來說,AI視頻的門檻已大幅降低,用戶玩AI視頻真的變成了一件很簡單且很有趣的事。

高飛認為,Sora2相比其他AI產品Sora2的技術並沒有代差領先,例如谷歌有Veo3,也有Nano banana以及世界模型Genie3,在多模態方面相當強悍。而國內的可靈、即夢也能與之一戰。

今年5月,Veo3推出時也曾在社交網絡火出圈,一些人物視頻極具真實感,被認為是AI視頻領域領先的水準。但彼時行業人士仍然認為,現階段的AI視頻對實際生產幫助仍然不算太大,並未來到真正的GPT時刻。

相較於模型技術,高飛認為Sora2更值得關注的是產品玩法。OpenAI將它打造成了一個更類似於短視頻的消費者App,其主要機制是要求用戶上傳自己的臉部數據和聲音信息做AI二創。「這樣一方面很容易拿到了最為寶貴的消費者面部數據,其次用戶基於自己的人臉創造的視頻,配合邀請碼機制,也很容易吸引親朋好友鏈式傳播。」

因此,高飛的觀察是,「OpenAI可能在模型不一定是最強,但是在打造互聯網產品方面,領先於其他所有公司。」這次Sora2不追求畫質和時長,也是典型的互聯網打法,先完成再完美,後續再疊代。

@尾鰭Vicky也認為,Sora2這次的發佈更側重APP的交互設計,並不僅是模型本身的更新。「Sora2目前的定位,似乎並不是以專業的AI視頻創作為導向,而是更專注於如何用AI視頻來完成用戶社交,做尋找應用場景的新嘗試。」

從海外市場來看,對於Sora2和Sora應用的發佈則褒貶不一。有用戶認為技術驚艷、創造力會大爆發,也有人認為這些無聊的視頻毫無意義,與宏大的AGI願景、人類福祉相悖。

有用戶發帖諷刺稱,2周前,奧爾特曼說「我們需要 7 萬億美元和 10 吉瓦來治癒癌症」,他現在表示「我們正在推出以個性化廣告形式營銷的 AI垃圾視頻」。

奧爾特曼轉發了這一帖子,並回復稱需要資金來繼續研究AI,並且幾乎所有的研究精力仍然集中在通用人工智能上。 「向人們展示很酷的新技術或者產品,讓他們開心,並藉此來賺取一些錢,這也是一件好事。」奧爾特曼稱,當談到公司的最佳發展軌跡時,現實情況是微妙的。

「重要的是讓人類從這些模型的開發中受益。我們認為Sora會給世界帶來很多歡樂、創造力和聯繫。」OpenAI在博客中寫道。未來,隨着視頻模型持續進化,通用世界模擬器與機械人Agent將重塑社會,無論如何,Sora 2朝這一目標邁出了重要的一步。

 

責任編輯: 時方  來源:第一財經 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/1004/2286529.html