新聞 > 科教 > 正文

為什麼這麼牛 大佬拆解Sora工作原理

Sora是一款獨特的視頻生成工具,其工作原理深入淺出,值得我們深入了解。something new/old創始人brett goldstein在X上給大家拆解了Sora工作原理,通俗易懂。

Sora的工作原理結合了擴散模型和Transformer架構。擴散模型從噪聲開始,逐漸精細化到所需的視頻。而Transformer架構則負責處理連續的視頻幀,確保視頻中的動作流暢自然。

Sora的獨特之處在於其處理視頻生成的方法。它不是直接將文本轉換為視頻幀,而是依賴於所謂的「空間時間補丁」。這種方法不直接將文本轉換為視頻幀,而是處理空間(發生的事情)和時間(何時發生)的快照。這可以看作是微觀視頻拼圖的每一小塊。

時空立方體:

通過這種方式,Sora將視頻視為一個包含空間和時間維度的巨大立方體,然後再將其切割成更小的立方體,每個立方體代表空間和時間的片段。

剖析描述並確定了核心要素:

•物體(盛開的花朵、陽光普照的窗台)

•行動(隨着時間的推移而增長)

•位置(郊區環境)

•甚至藝術風格(定格動畫美學)

為了能夠將這些補丁有意義地組合成一個連貫的視頻,Sora利用了其內部的知識圖譜。這些知識圖譜包含了關於物理世界、對象如何相互作用,甚至包括不同藝術風格的信息。藉助這些知識,Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風格等複雜過程。

在視頻生成的下一階段,擴散模型開始對每個嘈雜、抽象的補丁進行處理,逐漸精細化,直至最終呈現出清晰的圖像。而Transformer架構則負責分析時間跨度上補丁之間的關係,確保視頻中的動作流暢自然,停動畫風格在整個視頻序列中保持一致。

儘管Sora能夠執行各種與視頻相關的任務,並展現出驚人的視頻生成能力,但仍有一些挑戰需要克服。例如,它在模擬一些基礎物理互動的精確性方面還有待提高,有時會產生不自然的效果,如人物的手勢看起來不夠真實。儘管如此,Sora在視頻生成技術方面展示了巨大的潛力,為未來的人工智能應用開闢了新的可能性。

責任編輯: 李華  來源:站長之家 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0222/2021085.html