12月10日,OpenAI在距其首次發(fā)布號(hào)稱“世界模擬器”的視頻生成模型Sora十個(gè)月之后,全新發(fā)布正式版Sora Turbo,新版本速度和性能都勝過Sora,用戶不僅可以通過文字提示生成視頻,還能將靜態(tài)圖片轉(zhuǎn)化為動(dòng)態(tài)視頻,甚至可以對(duì)現(xiàn)有視頻進(jìn)行創(chuàng)意改編。但Sora的閉源路線,使得“Open AI”變成“Closed AI”,國內(nèi)學(xué)術(shù)界和科研機(jī)構(gòu)紛紛開始思考如何復(fù)現(xiàn)Sora,從而在視頻生成領(lǐng)域也能占有一席之地。
其中由北大-兔展AIGC聯(lián)合實(shí)驗(yàn)室共同發(fā)起的Open-Sora-Plan,旨在復(fù)現(xiàn)一個(gè)“開源版Sora”,目的是通過開源版Sora來推動(dòng)視頻生成技術(shù)的發(fā)展,為開源社區(qū)提供一個(gè)Sora模型,用于科研和創(chuàng)作,讓全世界的開發(fā)者都能參與進(jìn)來。自2024年3月1日正式公開以來,最新發(fā)布的Open-Sora-Plan
v1.3.0版本引入了五大新特性:性能更強(qiáng)、成本更低的WFVAE;Prompt
refiner;高質(zhì)量數(shù)據(jù)清洗策略;引入了全新稀疏注意力模塊DiT;以及采用動(dòng)態(tài)分辨率、支持動(dòng)態(tài)時(shí)長(zhǎng)的訓(xùn)練策略,取得了顯著成果。Open-Sora-Plan也是北京大學(xué)鯤鵬昇騰科教創(chuàng)新卓越中心支撐的項(xiàng)目之一。
NLP到Sora多模態(tài),數(shù)據(jù)量千倍增加,讀取帶寬百倍增加,AI數(shù)據(jù)處理復(fù)雜度指數(shù)級(jí)增長(zhǎng),這為AI存儲(chǔ)帶來了新機(jī)會(huì)。北大Open-Sora-Plan團(tuán)隊(duì)在使用華為AI存儲(chǔ)過程中,針對(duì)數(shù)據(jù)處理、訓(xùn)練、推理業(yè)務(wù)全流程與華為數(shù)據(jù)存儲(chǔ)團(tuán)隊(duì)開展聯(lián)合創(chuàng)新,達(dá)成多個(gè)技術(shù)改進(jìn)點(diǎn):
1、數(shù)據(jù)清洗階段-以存代算:多模態(tài)數(shù)據(jù)處理算子下移節(jié)省數(shù)據(jù)處理時(shí)長(zhǎng)。華為AI存儲(chǔ)通過美學(xué)評(píng)估、光流估計(jì)、圖文過濾算子等多模態(tài)數(shù)據(jù)處理算子下移,并做到場(chǎng)景域模態(tài)補(bǔ)齊無感知,將原始數(shù)據(jù)提前轉(zhuǎn)化成訓(xùn)練數(shù)據(jù),節(jié)省數(shù)據(jù)處理的時(shí)長(zhǎng)。另外華為AI存儲(chǔ)數(shù)據(jù)智能冷熱分級(jí)能力既解決了數(shù)據(jù)清洗過程中數(shù)據(jù)膨脹數(shù)十倍帶來的存不下問題,又滿足了性能要求,性價(jià)比10倍提升。
2、訓(xùn)練階段-以存強(qiáng)算:“模態(tài)-處理-編碼”感知的自適應(yīng)加載優(yōu)化提升訓(xùn)練效率。當(dāng)前業(yè)界多模態(tài)訓(xùn)練數(shù)據(jù)加載時(shí)未考慮多模態(tài)特性,且對(duì)編碼后的數(shù)據(jù)未高效復(fù)用,而是每輪訓(xùn)練重復(fù)處理和計(jì)算,造成算力浪費(fèi)。華為AI存儲(chǔ)通過將編碼后的數(shù)據(jù)特征值寫入存儲(chǔ)并高效復(fù)用,消除重復(fù)計(jì)算,優(yōu)化Batch分布,提升shuffle效率,訓(xùn)練效率提升大于10%。
3、推理階段-以查換算:通過KV-Cache復(fù)用,減少重計(jì)算,提高長(zhǎng)視頻理解的性能和精度,提升視頻生成效率。面向未來,Open-Sora-Plan團(tuán)隊(duì)與華為AI存儲(chǔ)計(jì)劃在多模態(tài)視頻理解和視頻生成場(chǎng)景共同研究KV-Cache以查換算技術(shù)。在長(zhǎng)視頻理解場(chǎng)景,無法將所有幀的表征同時(shí)喂給大模型,直接抽幀又會(huì)造成重要信息丟失,可考慮構(gòu)建Visual Memory Bank提前對(duì)長(zhǎng)視頻所有幀的表征建庫并統(tǒng)一管理,為以查換算提供了可能。多模態(tài)問答場(chǎng)景,用戶問題僅聚焦于部分內(nèi)容中,因此可通過多模態(tài)注意力檢索取出相關(guān)表征,避免冗余信息的干擾,實(shí)現(xiàn)對(duì)關(guān)鍵幀和關(guān)鍵token的選擇,降低多模型序列長(zhǎng)度75%,實(shí)現(xiàn)多模態(tài)KV-Cache以查換算。