藏春阁福利视频,亚洲成av人一区二区

國內版Sora的秘密，藏在生數(shù)科技大模型團隊里

2024-05-08 09:19

Ai芯天下

關注

前言：

在眾多長視頻生成算法中，Sora的技術革新具有劃時代的意義。

相較于傳統(tǒng)的 Stable Diffusion，Sora采納了創(chuàng)新的 Diffusion 與Transformer架構。

不僅彌補了Stable Diffusion在擴展性方面的不足，更在生成內容的精確度和靈活性上實現(xiàn)了顯著的突破。

作者 | 方文三

圖片來源 | 網絡

[國產Sora]發(fā)布，全面對標Sora

近日，生數(shù)科技與清華大學攜手推出國內首個基于自主研發(fā)的U-ViT架構的視頻大模型——Vidu。

能迅速生成16秒、高清1080p分辨率的視頻內容，展現(xiàn)了與Sora相當?shù)男阅�，尤其在多鏡頭生成、時空一致性、模擬真實物理世界以及創(chuàng)新能力等方面。

Vidu在視頻生成時長方面具有顯著優(yōu)勢，突破了長期以來國產Sora的十秒閾值。

生數(shù)科技采用單一模型的完全端到端生成方式，實現(xiàn)連續(xù)、絲滑的視頻內容生成，無需插幀處理。

具體而言，Vidu能夠生成細節(jié)復雜的場景，符合真實物理規(guī)律，展現(xiàn)合理光影效果和細膩人物表情。

同時，它還能生成真實世界不存在的虛構畫面，創(chuàng)造超現(xiàn)實主義內容。

在鏡頭語言方面，不再局限于簡單鏡頭，而是能實現(xiàn)遠景、近景、中景、特寫等不同鏡頭的切換，生成長鏡頭、追焦、轉場等效果。

值得一提的是，Vidu采用[一步到位]的生成方式，與Sora一樣，文本到視頻的轉換直接且連續(xù)。

在底層算法實現(xiàn)上，Vidu基于單一模型完全端到端生成，不涉及中間插幀和其他多步驟處理。

這一創(chuàng)新技術為視頻生成領域帶來了新的突破和可能性。

清華系創(chuàng)業(yè)，兩條路走路模式

Vidu之名，不僅與[Video]諧音，更富含[We do]之寓意，彰顯著行動與實踐的精神。

公開資料顯示，生數(shù)科技成立于2023年3月，其核心成員均來自于清華大學人工智能研究院，致力于獨立研發(fā)全球領先的可控多模態(tài)通用大模型。

生數(shù)科技的首席科學家朱軍，不僅是清華大學計算機系的教授，還是人工智能研究院的副院長。

同時，生數(shù)科技的CEO唐家渝，其本碩學歷均來自于清華大學計算機系；

CTO鮑凡則是清華大學計算機系的博士生，并作為朱軍教授課題組的成員，共同推進研發(fā)工作。

生數(shù)科技當前采取的是模型層和應用層并行的戰(zhàn)略。

一方面，他們正致力于構建涵蓋文本、圖像、視頻、3D模型等多模態(tài)能力的底層通用大模型，為B端提供模型服務能力；

另一方面，他們也在圖像生成、視頻生成等場景上打造專業(yè)應用，通過訂閱等方式進行收費。

這些應用主要面向游戲制作、影視后期等內容創(chuàng)作場景，展現(xiàn)出生數(shù)科技在技術和市場應用上的雙重實力。

走對技術路線,融合框架優(yōu)勢顯現(xiàn)

生數(shù)科技近日發(fā)布的Vidu與Sora視頻生成技術，顯著區(qū)別于市場主流基于U-Net卷積架構的傳統(tǒng)擴散模型，采用了前沿的融合架構，即U-ViT與DiT。

這種融合架構是Diffusion（擴散模型）與Transformer的有機結合，旨在發(fā)揮Transformer在可擴展性方面的優(yōu)勢；

同時保留Diffusion模型在處理視覺數(shù)據時的天然強項，從而在視覺任務中展現(xiàn)出卓越的性能。

回顧生數(shù)科技在視頻生成技術領域的研發(fā)歷程，早在2017年，團隊便發(fā)布了貝葉斯概率機器學習平臺[珠算]。

這一平臺在國際上屬于最早面向深度概率模型的編程庫之一，支持包括GAN、VAE、Flow等在內的多種深度生成式模型的概率建模。

2022年初，團隊提出了無訓練推理框架Analytic-DPM，通過直接估計最優(yōu)方差，大幅提升了采樣效率，相較于傳統(tǒng)模型DDPM，加速近20倍。

該成果被評選為ICLR 2022杰出論文，并得到了OpenAI在DALL·E 2模型處理策略中的應用。

同年6月，團隊再次創(chuàng)新，提出了采樣算法DPM-Solver，僅需10到15步就能獲得高質量的采樣。

該成果入選NeurIPS 2022 Oral，并被Stable Diffusion等大量開源項目所采納，至今仍是全球最快的圖像生成算法之一。

在技術的不斷推進中，2022年9月，團隊發(fā)表了U-ViT論文，首次提出了將擴散模型與Transformer融合的架構思路。

隨后推出的DiT架構也沿用了這一創(chuàng)新理念，并最終被Sora所采用。

與傳統(tǒng)的Transformer相比，U-ViT通過引入[長連接]技術，顯著提升了訓練收斂速度。

2023年3月，團隊基于U-ViT架構在大規(guī)模圖文數(shù)據集LAION-5B上訓練出了近10億參數(shù)量模型UniDiffuser，并將其開源。

UniDiffuser不僅支持圖文模態(tài)間的任意生成和轉換，而且其實現(xiàn)驗證了融合架構在大規(guī)模訓練任務中的可擴展性（Scaling Law），標志著融合架構在大規(guī)模訓練任務中的所有環(huán)節(jié)流程均得到了有效驗證。

值得一提的是，相較于最近才轉向DiT架構的Stable Diffusion 3，UniDiffuser在圖文模型領域領先了一年。

基于資源等方面的考慮，Sora團隊選擇了高強度的工作模式，全力以赴投入長視頻的研發(fā)，而生數(shù)科技則選擇從2D圖像入手，逐步拓展至3D和視頻領域。

今年1月，生數(shù)科技正式上線了4秒短視頻生成功能，隨后在2月Sora發(fā)布后，公司迅速攻堅，于3月實現(xiàn)了8秒視頻生成的突破，4月更是達到了16秒長度的突破，生成質量與時長均取得了全面性的提升。

完成三輪融資，成為國內估值頭部

經過多輪嚴謹?shù)馁Y本運作，生數(shù)科技在2023年6月成功完成首輪融資，由螞蟻集團主導，并得到BV百度風投和卓源資本的跟投。

經過此次融資，公司的估值已達到1億美金。

這些資金將被投入到核心研發(fā)團隊的建設和產品研發(fā)中，以推動公司的持續(xù)發(fā)展。

值得一提的是，自ChatGPT于去年11月發(fā)布以來，生數(shù)科技成為螞蟻集團投資的首個AIGC項目，同時也是百度風投在AI內容生成領域的第三個重要投資項目。

在2023年8月，生數(shù)科技再次獲得了錦秋基金的獨家投資，完成了數(shù)千萬元的天使+輪融資。

這筆資金將主要用于算法研發(fā)、產品開發(fā)和團隊擴充，為生數(shù)科技的未來發(fā)展注入新的動力。

到了2024年3月，生數(shù)科技成功完成了數(shù)億元人民幣的A輪融資。

此次融資得到了啟明創(chuàng)投、達泰資本、智譜AI等新機構的支持，同時也得到了BV百度風投和卓源亞洲兩位老股東的繼續(xù)跟投。

經過三輪融資，生數(shù)科技累計獲得了數(shù)億元人民幣的投資，這使得公司成為目前國內多模態(tài)大模型中估值最高的初創(chuàng)公司之一。

同時，生數(shù)科技團隊還推出了基于統(tǒng)一的多模態(tài)多任務框架的產業(yè)級通用基礎大模型（閉源版），展現(xiàn)了公司在AI領域的深厚實力和創(chuàng)新精神。

生數(shù)科技的核心團隊不僅是最早布局多模態(tài)大模型的團隊之一，而且在擴散概率模型的基礎理論和算法研究方面也有著豐富的經驗和突出的成果。

目前，生數(shù)科技是國內在擴散概率模型領域發(fā)表論文成果最多的團隊之一，這充分證明了公司在AI領域的領先地位和強大的研發(fā)能力。

結尾：市場前景廣闊，有待持續(xù)開發(fā)

文生視頻技術有望引領視頻創(chuàng)作領域的生產力變革，顯著降低生產成本和創(chuàng)作難度，有望在短視頻和動漫領域率先實現(xiàn)應用落地。

建銀國際指出，文生視頻模型在多個行業(yè)中具有廣泛的應用前景，包括但不限于營銷廣告、研發(fā)培訓、電商零售以及文娛游戲等領域。

根據彭博行業(yè)研究的數(shù)據，全球AIGC市場規(guī)模預計將從2023年的670億美元大幅提升至2030年的8970億美元，這表明該領域的復合年增長率將達到驚人的45%。

對于中國市場而言，艾瑞咨詢預測其產業(yè)規(guī)模將可能從2023年的143億元人民幣迅猛增長至2030年的11441億元人民幣，復合年增長率高達87%。

這一趨勢顯示出文生視頻在中國市場的巨大潛力和廣闊前景。

部分資料參考：極客公園：《國產 Sora 的秘密，藏在這個清華系大模型團隊中》，機器之心：《國內公司有望做出Sora嗎？這支清華系大模型團隊給出了希望》，中國新聞網：《中國首個！全面對標Sora》，獵云精選：《背靠清華，[國產最強]Sora來了》，算力豹：《[應戰(zhàn)]Sora，清華朱軍「生數(shù)科技」又融數(shù)億元，啟明創(chuàng)投領投》

原文標題 : AI芯天下丨科創(chuàng)丨國內版Sora的秘密，藏在生數(shù)科技大模型團隊里