OpenAI震撼彈！Sora生成視頻光影堪比王家衛＊阿波羅新聞網

去年四月，紐約一家名為Runway AI的公司推出了一項技術，讓人只需在屏幕上輸入一個句子就可以生成視頻。

當然彼時的效果仍不盡如人意，一眼就能看出是AI。

沒想到僅僅過去10個月，類似的技術就已經來到了全新的高度。

AI，又進化了。

今天OpenAI官宣了新產品Sora，號稱可以生成「最長60秒的視頻，其中包括高度豐富的場景、複雜的運鏡、感情鮮活的多個人物」。

從目前OpenAI給出的演示視頻看，這宣傳詞還真沒多誇張......

1.「大雪天，美麗、繁華的東京。鏡頭越過繁華的街景，跟隨至幾個人，他們享受着美麗的雪景，在附近的商攤購物。漂亮的櫻花瓣和着雪隨風飄落。」

細看仍然能看出一些問題：人體比例過於細長、兩位主人物走的是個死胡同、有些櫻花沒有樹枝飄在天上......

但講實話，這都是看第二遍之後才能發現的細節。第一眼看上去已經相當可信了。

估計再優化優化，就已經可以給那些不會畫畫的導演做分鏡用了......

Runway AI生成畫面效果仍不盡如人意

Introducing Sora, our text-to-video model.

Sora can create videos of up to60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt:「Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI(@OpenAI) February15,2024

2.「幾頭巨型長毛猛獁踏着積雪的草地走向鏡頭，隨着踏步，它們身上的長毛在微風中飄揚。遠處是白雪覆蓋的樹木和壯觀的雪山。」

「午後的光線伴隨着幾縷雲和遠處高懸的太陽，發出溫暖的光暈。較低的機位、優美的攝影和景深，捕捉到了這群巨大且毛茸茸的哺乳動物。」

這個除了「AI味兒」比較明顯之外甚至挑不出什麼毛病。

Prompt:「Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI(@OpenAI) February15,2024

3.「一位時尚女子走在東京街頭，道上到處都是暖色的霓虹和動態的城市標誌。她身穿黑色皮夾克、紅色長裙、黑色靴子，手拿黑色皮毛，戴太陽鏡，塗紅色唇膏。」

「她走得自信而隨意。街道潮濕，反射出五顏六色的燈。鏡頭裏還有許多行人走來走去。」

Prompt:「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI(@OpenAI) February15,2024

這可能是最震撼的一個，時長來到了一分鐘，證明宣傳語所言非虛。

配上一段小提琴，再加個紅紅黃黃的濾鏡，旁白再來段什麼「某年某月某日，東京。街頭很凍，霓虹一直在閃，好似永遠不會熄滅.......」

直接王家衛了。

這一分鐘能找到的最大瑕疵在15~16秒處，人物左右腳突然交換了，但瑕不掩瑜。它很輕鬆就解決了「拍鏡面怎麼能不拍出攝影機」這一千古難題。

4.「一段電影預告片。講述一位30歲太空人的冒險故事，他頭戴紅色羊毛織成的摩托車頭盔。頭頂藍天，腳下鹽鹼沙漠，影院風格，以35mm膠片拍攝，色彩鮮艷。」

Prompt:「A movie trailer featuring the adventures of the30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on35mm film, vivid colors.」 pic.twitter.com/0JzpwPUGPB

— OpenAI(@OpenAI) February15,2024

這一段是OpenAI故意整活，設計了一個針織帽頭盔，搞得很出戲。但這段真的挺牛的，你甚至能看出一些鏡頭語言.......

一開始的越肩接懟臉特寫用來介紹主角，飛船內外交替呈現，後面越切越快傳達緊張感——它都會蒙太奇了......

最離譜的是提示詞只給了故事梗概、風格上的限定，上面這些拍攝手法全是它自己「悟」出來的，太科幻了.......

5.「一個渲染得很華麗的珊瑚礁+紙藝的世界，到處都是五顏六色的魚和海洋生物。」

Prompt:「A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.」 pic.twitter.com/gzEE8SwP81

— OpenAI(@OpenAI) February15,2024

6.「一段動畫場景，一個矮小、毛茸茸的怪物跪在一根融化的紅燭旁，近景。」

「畫面應該是3D寫實風，重點在燈光和材質上。情緒基調是好奇、奇妙，小怪物要張大眼睛和嘴巴，凝視着蠟燭的火焰。」

「它的姿勢要傳達出一種天真和俏皮的感覺，好像是第一次探索周圍的世界。暖色調和誇張燈光的使用，進一步加強了畫面的舒適溫馨感。」

Prompt:「Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6

— OpenAI(@OpenAI) February15,2024

5和6一樣，都是非寫實風，感覺純是OpenAI在秀肌肉，告訴人們「Sora不光能生成真實畫面，還能做動畫」。

也是，反正對於AI來說寫實和動畫沒啥區別，反正都是從0開始生成的.......

以上就是OpenAI在推特上公佈的6個演示視頻，但他們官網上還有更多，篇幅所限就不再一一列舉，感興趣的話也可以自己去搜搜看。

其實除了開頭提過的Runway AI之外，谷歌、Meta這兩個大公司也嘗試過「文本轉視頻」技術，但效果沒有一個能接近Sora的。

其他公司的技術都只能生成大概十幾秒，只有Sora能達到一分鐘。

另外，Sora是一次性生成整個視頻，而不是一幀一幀的生成。

這很大程度上保證了畫面的連貫性，也就是說一個東西暫時出畫面了，再回到畫面來，還是同一個東西，而不是像下面這樣連續變化，變着變着就詭異得沒法看了：