當全球還沉迷在如何用文本生成文本,以及文本生成圖片的時候,OpenAI就這么掏出來了一個視頻生成模型Sora。有關Sora的具體介紹和效果展示可以看我們昨天的文章《OpenAI Sora問世,通往AGI的又一個ChatGPT時刻!GPT4可能也要被干掉了》。簡單來講,這是一個能夠根據文本指令或靜態圖像生成長達1分鐘視頻的擴散模型,而且視頻中還包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動——它做到了目前市面上視頻模型做不到的東西。
那么Sora是如何做到的?在昨天的文章中,我們曾第一時間基于僅有的信息給出了一個判斷:
簡單粗暴的理解,就是語言能力足夠強大之后,它帶來的泛化能力直接可以學習圖像視頻數據和它體現出的模式,然后還可以直接用學習來的圖像生成模型最能理解的方式,給這些利用了引擎等已有的強大而成熟的視頻生成技術的視覺模型模塊下指令,最終生成我們看到的逼真而強大的對物理世界體現出“理解”的視頻。
而之后OpenAI發布了Sora的技術報告:《Video generation models as world simulators》(視頻生成模型作為世界模擬器),其中介紹的技術思路基本印證了我們上面的判斷。
接下來我們一起來基于有限但足夠信息豐富的技術報告來解讀一下Sora背后的技術。
Sora的設計靈感來自于大語言模型,最主要的原因是大語言模型有一個核心功能是通過代碼將多種文本形式進行了統一。而OpenAI為了訓練出Sora,他們的做法也是將各類視覺數據轉化為統一表示的方法。
不過在正式了解Sora之前,我們需要先科普一個概念——塊(patches)。有點類似于大語言模型中的token,塊指的是將圖像或視頻幀分割成的一系列小塊區域。這些塊是模型處理和理解原始數據的基本單元。
對于視頻生成模型而言,塊不僅包含了局部的空間信息,還包含了時間維度上的連續變化信息。模型可以通過學習patches之間的關系來捕捉運動、顏色變化等復雜視覺特征,并基于此重建出新的視頻序列。這樣的處理方式有助于模型理解和生成視頻中的連貫動作和場景變化,從而實現高質量的視頻內容生成。
OpenAI又在塊的基礎上,將其壓縮到低維度潛在空間,再將其分解為“時空塊”(spacetime patches)。
暈了是不是,別急,一個一個解釋。潛在空間是一個3年前出現的概念,是指一個高維數據通過某種數學變換(如編碼器或降維技術)后所映射到的低維空間,這個低維空間中的每個點通常對應于原始高維數據的一個潛在表示或抽象特征向量。但是呢,優化強大的擴散模型往往需要消耗數百個GPU日的計算資源,并且由于其序列評估性質,推理成本較高。因此,本質上來講潛在空間,就是一個能夠在復雜性降低和細節保留之間達到近乎最優的平衡點,極大地提升了視覺保真度。
時空塊則是指從視頻幀序列中提取出的、具有固定大小和形狀的空間-時間區域。相較于塊而言,時空塊強調了連續性,模型可以通過時空塊來觀察視頻內容隨時間和空間的變化規律。
為了制造這些時空塊,OpenAI訓練了一個網絡,用于降低視覺數據的維度,叫做視頻壓縮網絡。這個網絡接受原始視頻作為輸入,并輸出一個在時間和空間上都進行了壓縮的潛在表示。Sora在這個壓縮后的潛在空間中進行訓練和生成視頻。同時,OpenAI還也訓練了一個相應的解碼器模型,用于將生成的潛在向量映射回像素空間。
剛才咱們也聊了,說這個“塊”是非常接近token的,那么這些塊的作用也應該和token差不太多。對于給定的壓縮輸入視頻,OpenAi就直接提取一系列塊作為Transformer token使用,然后這些時空塊會被進一步編碼并傳遞給Transformer網絡進行全局自注意力學習。最后利用Transformer的強大能力來處理并生成具有不同屬性的視頻內容。
這一方案同樣適用于圖像,因為圖像可以看作是僅有一幀的視頻。基于塊的表示方法使得Sora能夠對不同分辨率、時長和寬高比的視頻和圖像進行訓練。在推理階段,可以通過在一個適當大小的網格中排列隨機初始化的塊來控制生成視頻的尺寸。
此外,在Sora模型的介紹頁面雖然提到的都是通過文本來生成視頻,但Sora還能夠接受其他類型的輸入,比如圖像或視頻,以達到圖片生成視頻、視頻生成視頻的效果。這一特性使得Sora能夠執行廣泛的圖像和視頻編輯任務——例如制作完美循環播放的視頻、為靜態圖像添加動畫效果、向前或向后延展視頻時間軸等。
在長期的訓練中OpenAI發現sora模型逐漸擁有了一項新能力,叫做三維一致性。指的是Sora能夠生成動態視角的視頻。同時隨著視角的移動和旋轉,人物及場景元素在三維空間中仍然保持一致的運動狀態。
這個可能對咱們人類來說沒什么,但是對于人工智能來說,還是相當厲害的。人工智能理解三維物理世界,跟人類理解三維物理世界的方式不一樣,它采用了一種拓撲結構上的理解。注意,這里的拓撲結構不是計算機的拓撲結構,而是拓撲學中的拓撲結構。拓撲結構是一個幾何或空間的抽象描述,用于描述集合中元素之間的連接方式和空間屬性,而不考慮具體的度量或形狀。它關注的是空間中點與點之間的連通關系以及空間的整體形狀,而不是具體尺寸或角度等細節。
除此之外,既然視頻的視角發生變化,那么相應的紋理映射也要改變。Sora的真實感非常強,換句話說,紋理映射在拓撲結構上就得非常準確。三維一致性能力使Sora能夠模擬來自現實世界中人物、動物和環境的某些方面。
一個讓人興奮中帶著點害怕的消息是,這些屬性并非通過為3D、物體等添加明確的歸納偏置而產生——它們純粹是規模效應的現象。也就是說,是Sora自己根據訓練的內容,判斷出了現實世界中的一些物理客觀規律,某種程度上,人類如果僅僅是通過肉眼觀察,也很難達到這樣的境界。
還有一點,視頻生成系統面臨的一項重大挑戰是在生成長視頻時保持時間上的連貫性。而Sora也能夠有效地模擬短程和長程依賴關系。例如,即使人物、動物或物體被遮擋或離開畫面,Sora仍能保持這些元素存在于視線外,等到視角轉換到能看到他們的時候,再將這些內容展現出來。同樣的,它能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀的一致性。
事實上這點倒沒有什么,因為Sora是從transformer模型中孕育的,而transformer模型本身就能通過全局自注意力機制等技術來實現很高的連續性。Sora只不過是從視頻方面闡述了這種連續性而已。
對此,OpenAI得出了一個結論:視頻生成模型是構建通用物理世界模擬器的一條有前景的道路。
Sora目前所展現的能力表明,它是能通過觀察和學習來了解物理規律。就Sora的這個理解力,說句實在的比我都強,老師在上面講課,我只能做到眼睛會了,腦子不會。
不過Sora當前作為一個模擬器存在許多局限性。在OpenAI的主頁上,他們列舉了該模型的一些常見失效模式,比如在長時間采樣中可能出現的不連貫現象,以及物體無端出現等異常情況。從現有的結果來看,它還無法準確模擬許多基本交互的物理過程,像是玻璃破碎,以及其他類型的交互,比如吃食物。物體狀態的變化并不總是能夠得到正確的模擬,這說明很多現實世界的物理規則是沒有辦法通過現有的訓練來推斷的。
這些是這篇技術報告里最核心的信息,一如既往的,OpenAI在模型和實現細節方面繼續保持Close,不過,在報告中,OpenAI在不停提到“大力出奇跡”的效果:
關于涌現,它寫道:我們發現,當大規模地進行訓練時,視頻模型展現出許多有趣的涌現能力。這些能力使得Sora能夠模擬現實世界中人類、動物和環境的某些方面。這些屬性并沒有任何針對3D、物體等的明確歸納偏見——它們純粹是規模效應的現象。
OpenAI顯然在把Sora描述成它一直堅持的Scaling law的又一次勝利——沒有多么純粹原創的技術,很多技術成分早已存在,但它卻比所有人都更篤定的走了下去,并用足夠多的資源在巨大的規模上驗證了它。
DeepSeek火出圈,AI和大模型將如何改變物流行業?
3356 閱讀800美元不再免稅,T86清關作廢,跨境小包何去何從?
2303 閱讀凈利潤最高增長1210%、連虧7年、暴賺暴跌……物流企業最賺錢最虧錢的都有誰
2230 閱讀浙江科聰完成數千萬元A2輪融資
2137 閱讀AI紅利來襲!你準備好成為第一批AI物流企業了嗎?
2066 閱讀供應鏈可視化:從神話到現實的轉變之路
1476 閱讀運輸管理究竟管什么?
1343 閱讀Deepseek在倉庫規劃中的局限性:基于案例研究
1361 閱讀2024中國儲能電池TOP10出爐
1228 閱讀傳化智聯集成DeepSeek,深化AI大模型物流場景應用
1184 閱讀