新聞 > 科教 > 正文

Sora拍片真實體驗:大力難出奇蹟,全靠人工逐幀後期

今年年初,OpenAI發佈其首個文生視頻模型Sora,可用文字指令生成長達1分鐘的高清視頻,隨即引起廣泛關注和多方震動。馬斯克就感嘆「人類認賭服輸」,許多人更是直呼「導演、後期要失業了」,畢竟,這一被稱為「造片神器」的模型問世,意味着或許每個使用它的普通人都可能實現「導演夢」。很多人已經在暢想由ChatGPT生成創意文案和腳本,再由Sora從文本生成酷炫的幾分鐘廣告大片。

Sora最初並未對外開放試用,直到近幾周,來自加拿大的Shy Kids團隊作為少數獲得部分Sora權限的製作團隊,嘗試單純用SORA取代攝像機,製作了一部時長1分21秒的短片,也為大家揭開了Sora神秘的面紗。

這部《Air Head》短片由3人製作,耗時接近2周。談及製作過程,他們除了感慨SORA的強大功能,也談到了製作背後的很多內幕:真實的Sora成片每一秒都需要至少300倍的素材,而且OpenAI的科學家們似乎完全沒有意識到,視頻存在鏡頭語言這個需求,AI從文本一鍵生成我們理想中的大片依然只是美好的想像。

Shy Kids的深度體驗也證明了一個關鍵的事實,在Sora發佈時,OpenAI似乎在暗示這些樣片都是完全由SORA自稱生成製作,但大家看到的樣片「買家秀」背後實際上包含了大量人工的專業製作,無論是分鏡,編輯,調色,還是鏡頭,特效,這些目前均無法靠AI來取代。

專業團隊的分鏡,AI依然看不懂

Shy Kids作為一支加拿大專業影視團隊,以其不拘一格和創新的媒體製作方法而聞名。被稱為「朋克搖滾皮克斯」,在藝術性層面,他們的作品獲得了艾美獎提名併入圍奧斯卡提名,而在商業化層面,他們為迪士尼,奈飛,HBO等平台製作過多部作品,在業界有一定的知名度。

即便是這樣的專業團隊,在使用Sora製作視頻時,上來就發現了一個大問題——傳統的先寫劇本分鏡然後開啟拍攝製作的流程在Sora上行不通。

本片導演在介紹影片製作時提到,他們使用的Sora依然是傳統的輸入本文生成視頻模式,並不支持現在很多大模型已經應用的多模態輸入。

這直接導致了一個尷尬的劇情,由於沒法給Sora看分鏡圖,Sora完全無法生成一段連貫的視頻來滿足攝影團隊的需求,團隊只能將每一個分鏡都單獨生成視頻來進行拼接。

但是這裏就出現了第二個問題,AI對於事物的理解並不如人類,即便前一個鏡頭的素材完美符合了導演的需求,按照同樣的需求文字輸入後,下一段片段依然無法復現相同的元素。

導演對此舉了一個例子:假設你要求Sora在廚房裏拍攝一張桌上有香蕉的長鏡頭。在這種情況下,它將依據對「香蕉」這個概念的理解來生成視頻。通過訓練數據,它「學習」了香蕉的各類要素:例如「黃色」、「彎曲」、「有深色末端」等。但它沒有實際記錄的香蕉圖像,也沒有類似「香蕉圖片庫」數據庫,只憑藉關鍵詞生成它認為的香蕉,這也導致了每次生成得香蕉都無法保證固定一樣,這對於長視頻拍攝造成了巨大的影響。

為了保持最簡單的一致,團隊不得不將各種Sora生成片段進行裁剪拼接。

團隊展示影片製作過程

以這張氣球人騎車的片段為例,由於每次生成主角騎車畫面都無法保持統一,看似流暢的畫面實際上由三段畫面拼接而成。

AI拍片,更耗人力了

由於AI無法穩定生成一個固定的角色或者道具,這也導致了《Air Head》製作時遇到了許多在傳統影視中不會遇到的問題。

這部短片的主角是一個黃色氣球作為頭部的人,由於AI無法穩定地生成這樣一個角色,在這部1分21秒的作品中,幾乎每一秒都需要大量的後期調整才保證角色的統一。

為了解決這個問題,Shy kids決定大力出奇蹟,通過大量生成相關片段篩選相對統一有用的部分,來組合成一部影片,這也讓團隊原來設想的拍攝電影變成了一部類似紀錄片的拼接縫合。

團隊負責後期的帕德里克表示:「短片有劇本,但團隊需要靈活應變」,「只是獲得了一大堆鏡頭,並試圖以一種有趣的方式將其剪輯給旁白。」

其透露道,為了製作這部片子,每一秒鐘的成片都需要大概300倍的素材。

而渲染這些原始素材成為了影片最耗時的部分之一,團隊表示每次得到的素材長度在3-20秒,但是渲染的時間需要10-20分鐘不等。

而即便是渲染出來最終採用的素材,依然逃不過大量的人工後期加工。

Shy Kids提供的信息顯示,即便每次都要求生成一個黃色的氣球,Sora有時候還是會生成一個紅色氣球,由於沒有更加合適的素材,後期團隊只能利用PS和AE將其塗成黃色。

而有時候則會在氣球上出現人臉,這導致需要大量的後期處理,包括分級、穩定化、上採樣以及移除不需要的元素。

SORA生成的氣球人出現了人臉

OpenAI:什麼是鏡頭語言?

除了需要大量的後期外,對於製作AI電影中最大的障礙,負責本片後期的帕德里克提到了AI目前很難理解鏡頭語言這個缺點。

帕特里克表示:對於許多文生視頻工具來說,一個有價值的信息來源是相機元數據。例如,如果需要用照片訓練(大模型),相機元數據將提供鏡頭尺寸、光圈值和許多其他關鍵信息供模型訓練。

但是對於電影鏡頭,「跟蹤」「平移」「傾斜」或「推入」的想法都不是相機數據中冰冷的數據,而是一個更加抽象性的概念。儘管在影視行業中對象永恆性(道具/人物需要在拍攝時持續存在)製作至關重要,但鏡頭語言也同樣重要,然而目前的Sora不僅難以實現,甚至難以理解這個概念。

Shy Kids表示:「對於如何描述電影場景中的一個鏡頭,九個不同的人會有九種不同的想法。(OpenAI)研究人員在讓藝術家使用該工具之前,並沒有真正像電影製作人那樣思考。」儘管Shy Kids團隊知道他們體驗的Sora版本比較早期,但依然對於雜亂無章的攝像機機位和角度表示震驚,在團隊眼中,他們已經試圖在文本中強調固定機位或者鏡頭語言這個概念,但是他們不太確定到底是Sora無法理解他們的輸入方式,還是SORA根本就沒有相關的概念。

在將這個問題反饋給OpenAI後,雙方都大吃一驚,相比Shy Kids團隊,OpenAI的研究人員震驚於文生視頻居然有這樣的需求,這番回復讓Shy Kids團隊集體瞳孔地震,在他們眼中司空見慣的認知居然在SORA的開發中完全沒有被提及。

在Sora緊急更新了相關代碼後,Shy Kids對保持同一機位這個功能的評價也是「堪堪夠用」,帕德里克表示SORA目前可以做到生成10次視頻,六次能得到差不多的機位角度。

不過他補充到,值得注意的是這並不是一個獨特的問題,幾乎所有主要的文生視頻公司都面臨着同樣的問題。Runway AI在提供描述攝像機運動的UI方面可能是最先進的,但Runway的質量和渲染剪輯的長度不如Sora。

對於整體的拍攝體驗,Shy Kids團隊表示這是一次新奇且有意義的探索,他們認為比起靠Sora直接生成一部影片,將Sora融入AE製作特效鏡頭是一個非常好的應用嘗試。

同時,他們也表示,目前的Sora依然非常的早期,並不適合對外公開發布,對於專業團隊來說,可能離滿足導演要求還有很長的路要走,但是對於普通人,也許在未來的一段時間內,如果不在乎各種奇怪的BUG畫面和需要大量的後期修補,Sora或許能做到足夠普通人使用的程度。

責任編輯: 李華  來源:觀察者網 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0429/2049146.html