新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

為什麼這麼牛大佬拆解Sora工作原理

【阿波羅新聞網 2024-02-22 訊】

Sora是一款獨特的視頻生成工具，其工作原理深入淺出，值得我們深入了解。something new/old創始人brett goldstein在X上給大家拆解了Sora工作原理，通俗易懂。

Sora的工作原理結合了擴散模型和Transformer架構。擴散模型從噪聲開始，逐漸精細化到所需的視頻。而Transformer架構則負責處理連續的視頻幀，確保視頻中的動作流暢自然。

Sora的獨特之處在於其處理視頻生成的方法。它不是直接將文本轉換為視頻幀，而是依賴於所謂的「空間時間補丁」。這種方法不直接將文本轉換為視頻幀，而是處理空間（發生的事情）和時間(何時發生)的快照。這可以看作是微觀視頻拼圖的每一小塊。

時空立方體:

通過這種方式，Sora將視頻視為一個包含空間和時間維度的巨大立方體，然後再將其切割成更小的立方體，每個立方體代表空間和時間的片段。

剖析描述並確定了核心要素:

•物體（盛開的花朵、陽光普照的窗台）

•行動（隨着時間的推移而增長）

•位置（郊區環境）

•甚至藝術風格（定格動畫美學）

為了能夠將這些補丁有意義地組合成一個連貫的視頻，Sora利用了其內部的知識圖譜。這些知識圖譜包含了關於物理世界、對象如何相互作用，甚至包括不同藝術風格的信息。藉助這些知識，Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風格等複雜過程。

在視頻生成的下一階段，擴散模型開始對每個嘈雜、抽象的補丁進行處理，逐漸精細化，直至最終呈現出清晰的圖像。而Transformer架構則負責分析時間跨度上補丁之間的關係，確保視頻中的動作流暢自然，停動畫風格在整個視頻序列中保持一致。

儘管Sora能夠執行各種與視頻相關的任務，並展現出驚人的視頻生成能力，但仍有一些挑戰需要克服。例如，它在模擬一些基礎物理互動的精確性方面還有待提高，有時會產生不自然的效果，如人物的手勢看起來不夠真實。儘管如此，Sora在視頻生成技術方面展示了巨大的潛力，為未來的人工智能應用開闢了新的可能性。

責任編輯：李華　來源：站長之家轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2024/0222/2021085.html

相關新聞