曠視技術開放日,拋出了三個論斷
“在曠視科技的技術開放日(MegTech)上,這家人工智能企業(yè)就業(yè)界最關注的大模型、算法量產(chǎn)落地和算法定義硬件的最新進展進行了展示與回應!
技術開放日,是每一家科技公司展現(xiàn)技術價值、回應業(yè)界前沿探知的重要時刻。
7月15日,曠視科技的技術開放日(MegTech)如期而至。一群相信技術能改變世界的人聚到一起,將其在AIoT領域的思考和實踐和盤托出。
去年曠視科技十周年舉辦的首屆技術開放日,得到的熱情反饋,讓曠視決定將其固定下來!拔覀兿M磕甓寄芘e辦一屆MegTech,而且越辦越好,讓它能夠真正成為每位曠視人和曠視朋友的技術節(jié)日。”曠視科技聯(lián)合創(chuàng)始人、CEO印奇說。
曠視聯(lián)合創(chuàng)始人、CEO印奇
今年技術開放日上展示了20個人工智能的DEMO,其中包括了VR的裸手交互、自然語言直接生成3D人物、瞬時相機等熱點科技。不僅如此,對當下人工智能大模型、落地中的一些關鍵問題,曠視科技的人士也給出了他們的思考和實踐。
如今,曠視的技術核心能力都在圍繞AI和IoT構(gòu)建,AI層面包含了兩個核心要素:基礎算法科研和規(guī)模算法量產(chǎn),IoT的核心要素則是算法定義硬件,而不僅僅是讓硬件設備灌入AI算法能力。
‘2+1’的AIoT核心技術科研體系是支撐曠視未來不斷走向新的AIoT商業(yè)成功的最重要的基石!庇∑嬲f。
01
大模型的“悖論”
過去這些年,熱鬧的AI領域一直面臨著這樣一個窘境:聽起來很美好,但實際落地很難。
影響落地的一個關鍵是算法模型的訓練。以前是家家戶戶都在針對不同的業(yè)務場景訓練AI模型,但因為場景的多樣性、復雜性,導致很多人工智能模型要么不經(jīng)濟,要么太單一、泛化性差。
預訓練大模型應運而生。它相當于先自動學習大量語言文字和圖像數(shù)據(jù),形成先驗知識。后續(xù)的開發(fā)者都可以站在巨人的肩膀上,不需要針對每一個場景都建立一套模型。
“大模型的泛化能力強、模型效果更優(yōu)等特征,助力其成為AI開發(fā)新范式,也是現(xiàn)階段AI市場發(fā)展的必然趨勢!盜DC中國助理研究總監(jiān)盧言霞說。
曠視2022年技術開放日DEMO:VR裸手交互
預訓練大模型也降低了AI的使用門檻。它可以在不使用大量標記的訓練數(shù)據(jù),僅僅只給出任務描述,并給出幾個從輸入到輸出示例,便能自動執(zhí)行任務。
“大模型是提高AI系統(tǒng)性能的最重要的捷徑之一。”曠視研究院基礎科研負責人張祥雨說,面對復雜的應用場景和多種任務,提高模型性能的最直接途徑,就是提高模型本身的表達能力。
而谷歌點燃了大模型的第一把火,隨后人工智能研究組織OpenAI將大模型的參數(shù)規(guī)模推到了1750億的高度。而到了2021年,大模型的“軍備競賽”演繹得最為激烈。
當年1 月,谷歌推出的Switch Transformer模型參數(shù)量已經(jīng)高達1.6 萬億,打破了Open AI保持的紀錄。
國內(nèi)的巨頭也投入到大模型的競賽中。2021年4月,華為云的超大規(guī)模預訓練語言模型的參數(shù)規(guī)模達1000億;10月,浪潮發(fā)布約2500億的超大規(guī)模預訓練模型“源1.0”。12月,百度推出的ERNIE 3.0 Titan模型,參數(shù)規(guī)模達2600億。而阿里達摩院的M6模型參數(shù)達到10萬億,成為全球最大的 AI 預訓練模型。
從百億到千億,甚至到十萬億規(guī)模。這很容易給人一種錯覺:參數(shù)越大,大模型的效果就越好。
但事實并非如此!拔覀儼l(fā)現(xiàn)隨著模型的參數(shù)量和數(shù)據(jù)量的增多,我們的收益在逐漸地變少。”張祥雨說。
片面地追求大參數(shù)量,不一定能夠達到更強大的模型,反而會帶來更大的計算開銷。像OpenAI的GPT-3大模型,耗資超過1200萬美元,非一般企業(yè)所能承受。
在技術開放日上,曠視對外表示,他們認為的“大”有三個方面:大模型、大算法和大應用。不僅模型要大,更關鍵的是如何與算法整合,如何在應用中提高性能。
比如曠視在做大模型上找到一種新方法,傳統(tǒng)增大模型的方法主要靠增加深度、寬度,或者增加輸入分辨率。曠視提出了一種基于可逆、多column神經(jīng)網(wǎng)絡范式,通過增加可逆column的數(shù)量,來擴大化神經(jīng)網(wǎng)絡的參數(shù)和計算量。它帶來的額外顯存消耗非常小,有利于模型的訓練和優(yōu)化。
曠視2022年技術開放日DEMO:自然語言生成3D人物
“‘大’和’統(tǒng)一’是當今視覺AI基礎研究的新趨勢!睆埾橛昱袛。除了大,曠視還提到一個基礎研究的關鍵詞“統(tǒng)一”。
“這兩年我們發(fā)現(xiàn)這些算法在底層正在走向統(tǒng)一!睆埾橛暾f,包括基礎模型架構(gòu)的統(tǒng)一,算法的統(tǒng)一和認知的統(tǒng)一。比如在自動駕駛感知領域,曠視構(gòu)造了一個新的網(wǎng)絡PETR。它的特點就是幾乎沒有人工設計的成分,而是完全基于相同的架構(gòu)處理多視角、多時刻、多任務,以及多模態(tài)的輸入。
底層統(tǒng)一的好處在于,如果各種數(shù)據(jù)和任務能用統(tǒng)一的算法和模型,就可以構(gòu)建簡單、強大且通用的視覺AI系統(tǒng)。比如,一旦模型統(tǒng)一,AI加速器的設計就會非常簡單,一個模型可以適用于各種設備和各種任務。
如今,在“大”和“統(tǒng)一”的指引下,曠視在通用圖像大模型、視頻理解大模型、計算攝影大模型和自動駕駛感知大模型四個方向上,已經(jīng)有了不小進展。
02
算法量產(chǎn)的難言之隱
對于AI而言,算法模型還是萬里長征的第一步,如何結(jié)合具體場景實現(xiàn)量產(chǎn)落地才是最終目標。
早期的算法比較簡單,單點突破。但實際的應用場景卻非常復雜,單點的算法無法解決實際需求,往往需要把幾個算法串在一起,才能完成一個具體需求的落地。
比如在工業(yè)園區(qū)里的安全生產(chǎn)監(jiān)測,除了防范火災,還有人員安全、著裝規(guī)范、員工操作規(guī)范等一系列長尾且碎片化的需求,光讓算法識別出是否有火焰,顯然是不夠的。需要有一個強大的算法生產(chǎn)能力和體系。
這就導致了現(xiàn)在的算法量產(chǎn)越來越復雜。而通常,一個完整的算法生產(chǎn)過程,包含了需求分析、數(shù)據(jù)處理、模型訓練、上線部署,到最后的應用落地。這是一個相當復雜且繁瑣的事情。
這個過程存在了三個難點:
一是數(shù)據(jù)生產(chǎn)的復雜性。
算法是數(shù)據(jù)喂出來的,數(shù)據(jù)的質(zhì)量決定了算法的效果,F(xiàn)實場景的復雜性是一個非常大的挑戰(zhàn)。比如檢測火焰,火焰的特征非常鮮明,聽起來并不難。但現(xiàn)實中很容易把一些高光的物體標注為火焰,例如車尾燈的投影、遠處的太陽。而且小火苗和山火也是完全不同的形態(tài),也容易引起歧義。另外,還要剔除大量重復的數(shù)據(jù)以及破損的圖片。這些都是要克服的干擾因素。
二是算法模型的不確定性。
關于算法的模型和文獻浩如煙海,選哪個最合適,對于從業(yè)者而言是一個非常大的挑戰(zhàn)。到底選擇何種模型,如何與硬件平臺高效匹配,而且在算法落地時,也大概率會遇到漏檢、誤檢的情況。這種技術科研和工程落地之間的巨大鴻溝,是算法領域需要彌合的地方。
三是硬件多樣性帶來的高成本。
算法需要依賴硬件的算力來實現(xiàn),AI火熱這幾年,各種AI板卡非常多,但不同芯片平臺往往都有不同的體系結(jié)構(gòu),導致同樣一個功能,還需要先去深入了解芯片平臺的結(jié)構(gòu),才能寫出高效的代碼,增加了AI生產(chǎn)人員的部署成本。
看起來,每一個問題都很棘手。
但曠視在技術開放日上對外表達了他們解決算法生產(chǎn)難題的根本:標準化。AI算法只有標準化才能實現(xiàn)自動化,才能普惠易用。這里包括數(shù)據(jù)生產(chǎn)的標準化、算法模型的標準化和整個推理框架的標準化。
標準化聽起來非常簡單,但每一步都要考慮到位,一個細小的差別,最終都可能給最終結(jié)果帶來偏差。就像開車一樣,有些國家靠左,有些國家靠右,有些國家限速,有些國家不限速,紅綠燈的設置和表達又有不同。如果規(guī)則都統(tǒng)一,底層架構(gòu)也統(tǒng)一,這些困擾就能迎刃而解。
為此,曠視搭建了統(tǒng)一的算法生產(chǎn)平臺AIS(AI Service)。它基于曠視的Brain++體系,提供了從數(shù)據(jù)清洗、智能標注、數(shù)據(jù)管理、數(shù)據(jù)質(zhì)檢、算法自動生產(chǎn)、模型多維能力評測、pipeline部署等全流程能力。
曠視2022年技術開放日DEMO:AIS算法生產(chǎn)平臺
“標準化是我們在算法生產(chǎn)流程中的核心優(yōu)勢,這也是算法生產(chǎn)平臺AIS為大家提供的能力!睍缫曆芯吭核惴慨a(chǎn)負責人周而進說。目前,AIS平臺已經(jīng)能夠支持100多種業(yè)務模型訓練,最快2小時即可完成,而且模型產(chǎn)出精度指標遠高于業(yè)界平均水平。經(jīng)驗證,算法研發(fā)人員使用Brain++和AIS平臺,可以實現(xiàn)智能標注平均加速30倍,自動學習訓練加速4至20倍。
其實,曠視在2020年發(fā)布Brain++時,就將其中最核心組件深度學習框架天元(MegEngine)開源,讓更多企業(yè)與開發(fā)者實現(xiàn)更簡單的開發(fā)。
“我們希望去降低算法生產(chǎn)的門檻,從而鼓勵更多的行業(yè)技術人員參與到算法生產(chǎn)的過程中,打通各行各業(yè)的Know-h(huán)ow,一起去建設一個開放的算法生產(chǎn)生態(tài)!敝芏M說。
03
算法如何定義硬件
硬件在AI落地上扮演著非常重要的角色。
“在每個AI真正能夠規(guī);涞氐膱鼍袄锩妫覀冃枰业揭粋特別的硬件載體,一個非常好的IoT設備。在這樣的載體當中,才可以真正讓AI發(fā)揮巨大作用。”印奇說。
也正是基于此判斷,曠視在硬件道路上的探索比較堅持。作為AI算法起家的公司,曠視沒有硬件工程的天然基因。其實,不僅是曠視科技,像百度這些主打AI的公司,都在強調(diào)軟硬一體的戰(zhàn)略,加強對硬件的重視。行業(yè)普遍意識到,AI算法不是空中樓閣,需要生長在硬件設備上。
所以,我們也看到,像?低暋⒋笕A這些傳統(tǒng)的硬件廠商已提出AIoT的戰(zhàn)略。對于這些企業(yè)而言,他們有著足夠大的硬件出貨量,給AI提供了天然的應用場景。
但是,以前都是先有硬件,然后將AI算法的能力導入。這一點有點類似于早年的電動車,基本是燃油車改裝,把油箱和發(fā)動機換成了電池和電機,無論是駕駛體驗還是整體性能,與現(xiàn)在的電動車相差甚遠。
現(xiàn)在,AI算法反過來在影響硬件的形態(tài)和生態(tài)。
“算法對傳感器到底需要提供什么樣的信息和輸入,提出了要求,甚至本質(zhì)性地改造了傳感器的形態(tài)和樣式!睍缫曆芯吭河嬎銛z影負責人范浩強說,曠視在今年提出了“算法定義硬件”的理念,AI傳感器是這個理念的核心單元。
比如,以前要拍出一張高清照片,不僅需要專業(yè)設備,還得選個好天氣。現(xiàn)在智能手機的發(fā)展讓夜間拍照也變得非常清晰自然。而背后其實就有AI算法的功勞,也就是說每一次按下快門,其實都是經(jīng)過了大量的運算。
曠視2022年技術開放日DEMO:探囊取物
但要實現(xiàn)AI的能力,需要根據(jù)算法對鏡頭的防抖、對焦以及光線傳感等組件進行定制,才能實現(xiàn)影像能力的提升。這就是AI對硬件的反向輸出。
再比如,大家每天使用的手機指紋識別,以前用的是電容屏,其原理是讓指紋形成不同的電容值。而這幾年為了追求更高的屏占比,開始用屏下光學指紋,相當于給指紋拍個照,難度明顯更大。
但AI算法在快速推動屏幕指紋技術的演進。以前的屏幕指紋,需要一個非常完整的圖像,而最新的AI指紋識別技術,甚至只需要兩根脊線就可以完成對身份的確認!斑@就是當我們打通了傳感器、算法以及整個成像技術之后,能夠給大家?guī)淼钠孥E!狈逗茝娬f。
而從應用到算法到傳感器的全鏈路整合能力,被認為是曠視算法定義硬件的核心。
曠視是業(yè)界極少數(shù)能將傳感器的光學、模組、電子學的設計能力,傳感器的物理建模和算法能力,以及傳感器的應用能力融為一體的公司。“曠視非常有幸能夠成為其中一員,這也是我們進一步參與AI定義傳感器這件事情的最大信心和底氣!狈逗茝娬f。
而通過技術開放日,我們看到了一個AI公司相對完整的演進路徑:既要有基礎科研保證技術和算法模型的先進性,也要能讓算法量產(chǎn)變成產(chǎn)品,反向定義硬件,最終讓人工智能發(fā)揮出它的商業(yè)和社會價值。
原文標題 : 曠視技術開放日,拋出了三個論斷

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單