國(guó)內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里
前言:
在眾多長(zhǎng)視頻生成算法中,Sora的技術(shù)革新具有劃時(shí)代的意義。
相較于傳統(tǒng)的 Stable Diffusion,Sora采納了創(chuàng)新的 Diffusion 與Transformer架構(gòu)。
不僅彌補(bǔ)了Stable Diffusion在擴(kuò)展性方面的不足,更在生成內(nèi)容的精確度和靈活性上實(shí)現(xiàn)了顯著的突破。
作者 | 方文三
圖片來(lái)源 | 網(wǎng) 絡(luò)
[國(guó)產(chǎn)Sora]發(fā)布,全面對(duì)標(biāo)Sora
近日,生數(shù)科技與清華大學(xué)攜手推出國(guó)內(nèi)首個(gè)基于自主研發(fā)的U-ViT架構(gòu)的視頻大模型——Vidu。
能迅速生成16秒、高清1080p分辨率的視頻內(nèi)容,展現(xiàn)了與Sora相當(dāng)?shù)男阅,尤其在多鏡頭生成、時(shí)空一致性、模擬真實(shí)物理世界以及創(chuàng)新能力等方面。
Vidu在視頻生成時(shí)長(zhǎng)方面具有顯著優(yōu)勢(shì),突破了長(zhǎng)期以來(lái)國(guó)產(chǎn)Sora的十秒閾值。
生數(shù)科技采用單一模型的完全端到端生成方式,實(shí)現(xiàn)連續(xù)、絲滑的視頻內(nèi)容生成,無(wú)需插幀處理。
具體而言,Vidu能夠生成細(xì)節(jié)復(fù)雜的場(chǎng)景,符合真實(shí)物理規(guī)律,展現(xiàn)合理光影效果和細(xì)膩人物表情。
同時(shí),它還能生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造超現(xiàn)實(shí)主義內(nèi)容。
在鏡頭語(yǔ)言方面,不再局限于簡(jiǎn)單鏡頭,而是能實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換,生成長(zhǎng)鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果。
值得一提的是,Vidu采用[一步到位]的生成方式,與Sora一樣,文本到視頻的轉(zhuǎn)換直接且連續(xù)。
在底層算法實(shí)現(xiàn)上,Vidu基于單一模型完全端到端生成,不涉及中間插幀和其他多步驟處理。
這一創(chuàng)新技術(shù)為視頻生成領(lǐng)域帶來(lái)了新的突破和可能性。
清華系創(chuàng)業(yè),兩條路走路模式
Vidu之名,不僅與[Video]諧音,更富含[We do]之寓意,彰顯著行動(dòng)與實(shí)踐的精神。
公開(kāi)資料顯示,生數(shù)科技成立于2023年3月,其核心成員均來(lái)自于清華大學(xué)人工智能研究院,致力于獨(dú)立研發(fā)全球領(lǐng)先的可控多模態(tài)通用大模型。
生數(shù)科技的首席科學(xué)家朱軍,不僅是清華大學(xué)計(jì)算機(jī)系的教授,還是人工智能研究院的副院長(zhǎng)。
同時(shí),生數(shù)科技的CEO唐家渝,其本碩學(xué)歷均來(lái)自于清華大學(xué)計(jì)算機(jī)系;
CTO鮑凡則是清華大學(xué)計(jì)算機(jī)系的博士生,并作為朱軍教授課題組的成員,共同推進(jìn)研發(fā)工作。
生數(shù)科技當(dāng)前采取的是模型層和應(yīng)用層并行的戰(zhàn)略。
一方面,他們正致力于構(gòu)建涵蓋文本、圖像、視頻、3D模型等多模態(tài)能力的底層通用大模型,為B端提供模型服務(wù)能力;
另一方面,他們也在圖像生成、視頻生成等場(chǎng)景上打造專業(yè)應(yīng)用,通過(guò)訂閱等方式進(jìn)行收費(fèi)。
這些應(yīng)用主要面向游戲制作、影視后期等內(nèi)容創(chuàng)作場(chǎng)景,展現(xiàn)出生數(shù)科技在技術(shù)和市場(chǎng)應(yīng)用上的雙重實(shí)力。
走對(duì)技術(shù)路線,融合框架優(yōu)勢(shì)顯現(xiàn)
生數(shù)科技近日發(fā)布的Vidu與Sora視頻生成技術(shù),顯著區(qū)別于市場(chǎng)主流基于U-Net卷積架構(gòu)的傳統(tǒng)擴(kuò)散模型,采用了前沿的融合架構(gòu),即U-ViT與DiT。
這種融合架構(gòu)是Diffusion(擴(kuò)散模型)與Transformer的有機(jī)結(jié)合,旨在發(fā)揮Transformer在可擴(kuò)展性方面的優(yōu)勢(shì);
同時(shí)保留Diffusion模型在處理視覺(jué)數(shù)據(jù)時(shí)的天然強(qiáng)項(xiàng),從而在視覺(jué)任務(wù)中展現(xiàn)出卓越的性能。
回顧生數(shù)科技在視頻生成技術(shù)領(lǐng)域的研發(fā)歷程,早在2017年,團(tuán)隊(duì)便發(fā)布了貝葉斯概率機(jī)器學(xué)習(xí)平臺(tái)[珠算]。
這一平臺(tái)在國(guó)際上屬于最早面向深度概率模型的編程庫(kù)之一,支持包括GAN、VAE、Flow等在內(nèi)的多種深度生成式模型的概率建模。
2022年初,團(tuán)隊(duì)提出了無(wú)訓(xùn)練推理框架Analytic-DPM,通過(guò)直接估計(jì)最優(yōu)方差,大幅提升了采樣效率,相較于傳統(tǒng)模型DDPM,加速近20倍。
該成果被評(píng)選為ICLR 2022杰出論文,并得到了OpenAI在DALL·E 2模型處理策略中的應(yīng)用。
同年6月,團(tuán)隊(duì)再次創(chuàng)新,提出了采樣算法DPM-Solver,僅需10到15步就能獲得高質(zhì)量的采樣。
該成果入選NeurIPS 2022 Oral,并被Stable Diffusion等大量開(kāi)源項(xiàng)目所采納,至今仍是全球最快的圖像生成算法之一。
在技術(shù)的不斷推進(jìn)中,2022年9月,團(tuán)隊(duì)發(fā)表了U-ViT論文,首次提出了將擴(kuò)散模型與Transformer融合的架構(gòu)思路。
隨后推出的DiT架構(gòu)也沿用了這一創(chuàng)新理念,并最終被Sora所采用。
與傳統(tǒng)的Transformer相比,U-ViT通過(guò)引入[長(zhǎng)連接]技術(shù),顯著提升了訓(xùn)練收斂速度。
2023年3月,團(tuán)隊(duì)基于U-ViT架構(gòu)在大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練出了近10億參數(shù)量模型UniDiffuser,并將其開(kāi)源。
UniDiffuser不僅支持圖文模態(tài)間的任意生成和轉(zhuǎn)換,而且其實(shí)現(xiàn)驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),標(biāo)志著融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程均得到了有效驗(yàn)證。
值得一提的是,相較于最近才轉(zhuǎn)向DiT架構(gòu)的Stable Diffusion 3,UniDiffuser在圖文模型領(lǐng)域領(lǐng)先了一年。
基于資源等方面的考慮,Sora團(tuán)隊(duì)選擇了高強(qiáng)度的工作模式,全力以赴投入長(zhǎng)視頻的研發(fā),而生數(shù)科技則選擇從2D圖像入手,逐步拓展至3D和視頻領(lǐng)域。
今年1月,生數(shù)科技正式上線了4秒短視頻生成功能,隨后在2月Sora發(fā)布后,公司迅速攻堅(jiān),于3月實(shí)現(xiàn)了8秒視頻生成的突破,4月更是達(dá)到了16秒長(zhǎng)度的突破,生成質(zhì)量與時(shí)長(zhǎng)均取得了全面性的提升。
完成三輪融資,成為國(guó)內(nèi)估值頭部
經(jīng)過(guò)多輪嚴(yán)謹(jǐn)?shù)馁Y本運(yùn)作,生數(shù)科技在2023年6月成功完成首輪融資,由螞蟻集團(tuán)主導(dǎo),并得到BV百度風(fēng)投和卓源資本的跟投。
經(jīng)過(guò)此次融資,公司的估值已達(dá)到1億美金。
這些資金將被投入到核心研發(fā)團(tuán)隊(duì)的建設(shè)和產(chǎn)品研發(fā)中,以推動(dòng)公司的持續(xù)發(fā)展。
值得一提的是,自ChatGPT于去年11月發(fā)布以來(lái),生數(shù)科技成為螞蟻集團(tuán)投資的首個(gè)AIGC項(xiàng)目,同時(shí)也是百度風(fēng)投在AI內(nèi)容生成領(lǐng)域的第三個(gè)重要投資項(xiàng)目。
在2023年8月,生數(shù)科技再次獲得了錦秋基金的獨(dú)家投資,完成了數(shù)千萬(wàn)元的天使+輪融資。
這筆資金將主要用于算法研發(fā)、產(chǎn)品開(kāi)發(fā)和團(tuán)隊(duì)擴(kuò)充,為生數(shù)科技的未來(lái)發(fā)展注入新的動(dòng)力。
到了2024年3月,生數(shù)科技成功完成了數(shù)億元人民幣的A輪融資。
此次融資得到了啟明創(chuàng)投、達(dá)泰資本、智譜AI等新機(jī)構(gòu)的支持,同時(shí)也得到了BV百度風(fēng)投和卓源亞洲兩位老股東的繼續(xù)跟投。
經(jīng)過(guò)三輪融資,生數(shù)科技累計(jì)獲得了數(shù)億元人民幣的投資,這使得公司成為目前國(guó)內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。
同時(shí),生數(shù)科技團(tuán)隊(duì)還推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級(jí)通用基礎(chǔ)大模型(閉源版),展現(xiàn)了公司在AI領(lǐng)域的深厚實(shí)力和創(chuàng)新精神。
生數(shù)科技的核心團(tuán)隊(duì)不僅是最早布局多模態(tài)大模型的團(tuán)隊(duì)之一,而且在擴(kuò)散概率模型的基礎(chǔ)理論和算法研究方面也有著豐富的經(jīng)驗(yàn)和突出的成果。
目前,生數(shù)科技是國(guó)內(nèi)在擴(kuò)散概率模型領(lǐng)域發(fā)表論文成果最多的團(tuán)隊(duì)之一,這充分證明了公司在AI領(lǐng)域的領(lǐng)先地位和強(qiáng)大的研發(fā)能力。
結(jié)尾:市場(chǎng)前景廣闊,有待持續(xù)開(kāi)發(fā)
文生視頻技術(shù)有望引領(lǐng)視頻創(chuàng)作領(lǐng)域的生產(chǎn)力變革,顯著降低生產(chǎn)成本和創(chuàng)作難度,有望在短視頻和動(dòng)漫領(lǐng)域率先實(shí)現(xiàn)應(yīng)用落地。
建銀國(guó)際指出,文生視頻模型在多個(gè)行業(yè)中具有廣泛的應(yīng)用前景,包括但不限于營(yíng)銷廣告、研發(fā)培訓(xùn)、電商零售以及文娛游戲等領(lǐng)域。
根據(jù)彭博行業(yè)研究的數(shù)據(jù),全球AIGC市場(chǎng)規(guī)模預(yù)計(jì)將從2023年的670億美元大幅提升至2030年的8970億美元,這表明該領(lǐng)域的復(fù)合年增長(zhǎng)率將達(dá)到驚人的45%。
對(duì)于中國(guó)市場(chǎng)而言,艾瑞咨詢預(yù)測(cè)其產(chǎn)業(yè)規(guī)模將可能從2023年的143億元人民幣迅猛增長(zhǎng)至2030年的11441億元人民幣,復(fù)合年增長(zhǎng)率高達(dá)87%。
這一趨勢(shì)顯示出文生視頻在中國(guó)市場(chǎng)的巨大潛力和廣闊前景。
部分資料參考:極客公園:《國(guó)產(chǎn) Sora 的秘密,藏在這個(gè)清華系大模型團(tuán)隊(duì)中》,機(jī)器之心:《國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望》,中國(guó)新聞網(wǎng):《中國(guó)首個(gè)!全面對(duì)標(biāo)Sora》,獵云精選:《背靠清華,[國(guó)產(chǎn)最強(qiáng)]Sora來(lái)了》,算力豹:《[應(yīng)戰(zhàn)]Sora,清華朱軍「生數(shù)科技」又融數(shù)億元,啟明創(chuàng)投領(lǐng)投》
原文標(biāo)題 : AI芯天下丨科創(chuàng)丨國(guó)內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?