新聞 > 科教 > 正文

OpenAI震撼彈!Sora生成視頻 光影堪比王家衛

去年四月,紐約一家名為Runway AI的公司推出了一項技術,讓人只需在屏幕上輸入一個句子就可以生成視頻。

當然彼時的效果仍不盡如人意,一眼就能看出是AI。

沒想到僅僅過去10個月,類似的技術就已經來到了全新的高度。

AI,又進化了。

今天OpenAI官宣了新產品Sora,號稱可以生成「最長60秒的視頻,其中包括高度豐富的場景、複雜的運鏡、感情鮮活的多個人物」。

從目前OpenAI給出的演示視頻看,這宣傳詞還真沒多誇張......

1.「大雪天,美麗、繁華的東京。鏡頭越過繁華的街景,跟隨至幾個人,他們享受着美麗的雪景,在附近的商攤購物。漂亮的櫻花瓣和着雪隨風飄落。」

細看仍然能看出一些問題:人體比例過於細長、兩位主人物走的是個死胡同、有些櫻花沒有樹枝飄在天上......

但講實話,這都是看第二遍之後才能發現的細節。第一眼看上去已經相當可信了。

估計再優化優化,就已經可以給那些不會畫畫的導演做分鏡用了......

Runway AI生成畫面效果仍不盡如人意

Introducing Sora, our text-to-video model.

Sora can create videos of up to60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt:「Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI(@OpenAI) February15,2024

2.「幾頭巨型長毛猛獁踏着積雪的草地走向鏡頭,隨着踏步,它們身上的長毛在微風中飄揚。遠處是白雪覆蓋的樹木和壯觀的雪山。」

「午後的光線伴隨着幾縷雲和遠處高懸的太陽,發出溫暖的光暈。較低的機位、優美的攝影和景深,捕捉到了這群巨大且毛茸茸的哺乳動物。」

這個除了「AI味兒」比較明顯之外甚至挑不出什麼毛病。

Prompt:「Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI(@OpenAI) February15,2024

3.「一位時尚女子走在東京街頭,道上到處都是暖色的霓虹和動態的城市標誌。她身穿黑色皮夾克、紅色長裙、黑色靴子,手拿黑色皮毛,戴太陽鏡,塗紅色唇膏。」

「她走得自信而隨意。街道潮濕,反射出五顏六色的燈。鏡頭裏還有許多行人走來走去。」

Prompt:「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI(@OpenAI) February15,2024

這可能是最震撼的一個,時長來到了一分鐘,證明宣傳語所言非虛。

配上一段小提琴,再加個紅紅黃黃的濾鏡,旁白再來段什麼「某年某月某日,東京。街頭很凍,霓虹一直在閃,好似永遠不會熄滅.......」

直接王家衛了。

這一分鐘能找到的最大瑕疵在15~16秒處,人物左右腳突然交換了,但瑕不掩瑜。它很輕鬆就解決了「拍鏡面怎麼能不拍出攝影機」這一千古難題。

4.「一段電影預告片。講述一位30歲太空人的冒險故事,他頭戴紅色羊毛織成的摩托車頭盔。頭頂藍天,腳下鹽鹼沙漠,影院風格,以35mm膠片拍攝,色彩鮮艷。」

Prompt:「A movie trailer featuring the adventures of the30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.」 pic.twitter.com/0JzpwPUGPB

— OpenAI(@OpenAI) February15,2024

這一段是OpenAI故意整活,設計了一個針織帽頭盔,搞得很出戲。但這段真的挺牛的,你甚至能看出一些鏡頭語言.......

一開始的越肩接懟臉特寫用來介紹主角,飛船內外交替呈現,後面越切越快傳達緊張感——它都會蒙太奇了......

最離譜的是提示詞只給了故事梗概、風格上的限定,上面這些拍攝手法全是它自己「悟」出來的,太科幻了.......

5.「一個渲染得很華麗的珊瑚礁+紙藝的世界,到處都是五顏六色的魚和海洋生物。」

Prompt:「A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.」 pic.twitter.com/gzEE8SwP81

— OpenAI(@OpenAI) February15,2024

6.「一段動畫場景,一個矮小、毛茸茸的怪物跪在一根融化的紅燭旁,近景。」

「畫面應該是3D寫實風,重點在燈光和材質上。情緒基調是好奇、奇妙,小怪物要張大眼睛和嘴巴,凝視着蠟燭的火焰。」

「它的姿勢要傳達出一種天真和俏皮的感覺,好像是第一次探索周圍的世界。暖色調和誇張燈光的使用,進一步加強了畫面的舒適溫馨感。」

Prompt:「Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6

— OpenAI(@OpenAI) February15,2024

5和6一樣,都是非寫實風,感覺純是OpenAI在秀肌肉,告訴人們「Sora不光能生成真實畫面,還能做動畫」。

也是,反正對於AI來說寫實和動畫沒啥區別,反正都是從0開始生成的.......

以上就是OpenAI在推特上公佈的6個演示視頻,但他們官網上還有更多,篇幅所限就不再一一列舉,感興趣的話也可以自己去搜搜看。

其實除了開頭提過的Runway AI之外,谷歌、Meta這兩個大公司也嘗試過「文本轉視頻」技術,但效果沒有一個能接近Sora的。

其他公司的技術都只能生成大概十幾秒,只有Sora能達到一分鐘。

另外,Sora是一次性生成整個視頻,而不是一幀一幀的生成。

這很大程度上保證了畫面的連貫性,也就是說一個東西暫時出畫面了,再回到畫面來,還是同一個東西,而不是像下面這樣連續變化,變着變着就詭異得沒法看了:

(詭異AI視頻)

據OpenAI的工程師說,Sora這個名字來源於日語的「天空」,寓意差不多是「創造力突破天際」,現在看來,他們的期望多半要成真了。

目前Sora還是個測試版,可用性已經肉眼可見,天知道正式版會強成什麼樣.......

今天外網已經炸了,諸多媒體都已經報道了此事,「OpenAI」和「Sora」也已經登上了推特熱搜:

(「OpenAI」和「Sora」登上推特熱搜)

但由於近一兩年AI造成的各種騷亂:模仿聲音詐騙、無成本造謠、版權問題、擠壓工作崗位......大多數網友對Sora持比較悲觀的態度。

不是嫌它不好用,是怕它太好用了。

「這太可怕了,還會偷走人們的工作,更不用說它可以用來干各種各樣的壞事。」

(出自推特網友評論)

「喔天哪,以後到底啥才是真的......」

(出自推特網友評論)

「真是想不到它能用來幹什麼壞事呢呵呵」

(出自推特網友評論)

「你們這些科學家太忙於想着『能不能』的事,卻忘了停下來想想『該不該』......」

(出自推特網友評論)

「下一個十年,將會是徹底瘋狂的。」

(出自推特網友評論)

甚至目前的Youtube一哥Mr.Beast也出來半開玩笑地表示:

「Sam(指OpenAI的CEO Sam Altman)請別讓我成流浪漢了...」

(Mr.Beast評論)

另一位Youtube頭部數碼博主MKBHD也表示:

「我.....我有好多好多疑問」

(MKBHD評論)

再加上美國大選已經近在咫尺,很多人擔心Sora會成為謠言的溫床,干預到本次大選.....

「安息吧。本次大選。」

(出自推特網友評論)

網友的擔憂不是沒有道理的。畢竟很多中老年人是真的會相信「視頻不能P」。

再說就憑演示視頻這個質量......它真的只能騙到中老年人麼?

Sora還有一個功能是基於一張圖生成整個視頻,往好處想,這可以用來填充老視頻缺失的幀;

但往壞處想,就真可以「開局一張圖,剩下全靠編」了。

早在2023年5月時,推上就曾經有人發過一張「五角大樓炸了」的AI圖,當時傳播範圍挺廣,很多人信了,最後還被CNN報道了:

(CNN報道的「五角大樓爆炸」)

現在的Sora生成的視頻比這一張圖更「可信」,潛在的引發騷亂的能力也更強了。

不過我們也不必太過擔憂,OpenAI表示Sora也不是沒有缺點,它最大的毛病有兩個:

第一是理解不了因果關係,比如讓它生成一個人咬餅乾的視頻,但咬完餅乾可能沒有咬痕;

第二則是缺乏空間意識,有時會混淆左右,不理解人和物體如何與場景交互。

等正式版發佈,也許這些問題能得到解決,但相應地,引發騷亂的可能也會變大。

OpenAI也清楚這一點,所以他們目前還沒有把Sora放出來,而是找了一群學者專家合作,想法設法地找尋Sora可能被濫用的點。

然而從過去幾年發生的事看,他們恐怕很難把所有口子都徹底堵上,總會有人嘗試給AI越獄,不是想防就能防得住.......

所以下面這位網友預想的場景,也許真有實現的一天:

「我被抓了,法庭上展出了『視頻證據』,裏面是我在犯罪,一件我這輩子都沒犯過的罪。」

(出自推特網友評論)

就在兩天前,OpenAI對我們最熟悉的ChatGPT做出了改動,現在它的「記性」更好了。

(相關報道)

比如在《紐約時報》的這篇報道中,記者跟GPT聊天說他有個女兒叫Lina,馬上五歲了,她喜歡粉色、喜歡水母。

等下次再跟GPT聊天,記者讓GPT為女兒生成一張生日賀卡,它就直接調用了以前的信息:

(AI生成的賀卡)

這說明它記住了以前的聊天,變得更像個「人」了......

似乎來到2024之後,OpenAI加快了推進AI的腳步,Sora的出現就是一個明證。

一方面,Sora的前景讓人十分期待,用來「拍電影」不行,但一分鐘之內的短視頻它足以勝任;

另一方面,超低成本的造謠也是明擺着很難解決的問題。

OpenAI究竟是在創造科技進步還是在打開潘多拉魔盒,也許最終就只能交給時間來評判了......

責任編輯: 李冬琪  來源:英國那些事兒 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0217/2018954.html