一文看懂AI芯片最新格局
云端推斷芯片:百家爭(zhēng)鳴,各有千秋
推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算, 利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。 推斷過程對(duì)響應(yīng)速度一般有較高要求, 因此會(huì)采用 AI 芯片(搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行加速。
相比訓(xùn)練芯片,推斷芯片考慮的因素更加綜合:?jiǎn)挝还乃懔,時(shí)延,成本等等。初期推斷也采用 GPU 進(jìn)行加速,但由于應(yīng)用場(chǎng)景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率, FPGA/ASIC 的表現(xiàn)可能更突出。除了 Nvidia、 Google、 Xilinx、 Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推斷芯片以外, Wave computing、 Groq 等初創(chuàng)公司也加入競(jìng)爭(zhēng)。中國(guó)公司里,寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。
主要云端推斷芯片對(duì)比
我們認(rèn)為, 云端推斷芯片在未來會(huì)呈現(xiàn)百花齊放的態(tài)勢(shì)。 具體情況如下:
Nvidia
在云端推斷芯片領(lǐng)域, Nvidia 主打產(chǎn)品為 P40 和 P4, 二者均采用 TSMC 16nm 制程。 TeslaP4 擁有 2560 個(gè)流處理器,每秒可進(jìn)行 22 萬億次(TOPS) 計(jì)算(對(duì)應(yīng) INT 8)。而性能更強(qiáng)的 Tesla P40 擁有 3840 個(gè)流處理器,每秒可進(jìn)行 47 萬億次(TOPS)計(jì)算(對(duì)應(yīng) INT 8)。從單位功耗推斷能力來看, P4/P40 雖然有進(jìn)步,但仍遜于 TPU。 GPU 在推斷上的優(yōu)勢(shì)是帶寬。
Google TPU 1.0 為云端推斷而生,其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。 TPU 1.0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá) 1.2TOPS/Watt,優(yōu)于主流 Nvidia GPU。 TPU 2.0 在推斷表現(xiàn)上相比于 1 代并沒有本質(zhì)提升,主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的 TPU 功耗也會(huì)變得更高。
Wave Computing
Wave computing 于 2010 年 12 月成立于加州,目前累計(jì)融資 1.2 億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS,且無需 CPU 來管理工作流。目前公司正與 Broadcomm 合作在開發(fā)二代芯片,將采用 7nm制程。
Groq
Groq 是由 Google TPU 初始團(tuán)隊(duì)離職創(chuàng)建的 AI 芯片公司,計(jì)劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品,對(duì)標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs(INT 8),單位能耗效率表現(xiàn)搶眼。
寒武紀(jì)科技
寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100,同時(shí)支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS(對(duì)應(yīng) INT 8)的運(yùn)算能力。
比特大陸
比特大陸的計(jì)算芯片 BM 1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計(jì)算與推理。 BM1680 還提供了 4 個(gè)獨(dú)立的 DDR4 通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W,在單位能耗推斷效率上有一定優(yōu)勢(shì)。
應(yīng)用場(chǎng)景1:云端推斷芯片助力智能語音識(shí)別
云端推斷芯片提升語音識(shí)別速度。 語音識(shí)別是推斷芯片的工作場(chǎng)景之一,如 Amazon 的語音助手 Alexa,其“智能”來自于 AWS 云中的推斷芯片。 Alexa 是預(yù)裝在亞馬遜 Echo內(nèi)的個(gè)人虛擬助手,可以接收及相應(yīng)語音命令。通過將語音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計(jì)算,再返回結(jié)果至本地來達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作,由于算力低,識(shí)別中會(huì)有 300-400ms 的延遲,影響用戶體驗(yàn)。
智能音箱通過云端推斷芯片工作
而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片,結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個(gè) C++庫),可以將延遲縮減到 7ms。 此外, AI 芯片支持深度學(xué)習(xí),降低了語音識(shí)別錯(cuò)誤率。 目前, 借助云端芯片的良好推斷能力,百度語音助手的語音識(shí)別準(zhǔn)確度已達(dá)到 97%之高。
Nvidia 云端推斷芯片提升語音識(shí)別速度
應(yīng)用場(chǎng)景2:推斷芯片應(yīng)用于智能搜索
RankBrain 是 Google 眾多搜索算法的一部分,它是一套計(jì)算機(jī)程序,能把知識(shí)庫中上十億個(gè)頁面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。 目前, Google 每天要處理 30 億條搜索,而其中 15%的詞語是 Google 沒有見過的。 RankBrain 可以觀察到看似無關(guān)復(fù)雜搜索之間的模式,并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的, 實(shí)現(xiàn)了對(duì)輸入的語義理解。 這種能力離不開 Google 云端推斷芯片 TPU 的輔助。
推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語義識(shí)別
先前,在沒有深度學(xué)習(xí)情況下,單純依靠 PageRanking 及 InvertedIndex, Google 也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。 TPU 利用 RankBrain 中的深度學(xué)習(xí)模型,在 80%的情況下計(jì)算出的置頂詞條,均是人們最想要的結(jié)果。
TPU+RankBrain 在推斷正確率上獲得提高
用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益
手機(jī)芯片市場(chǎng)目前包括:(1)蘋果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商,以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3) ARM, Synopsys、 Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。 采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對(duì)自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo),來獲得剩余廠商的市場(chǎng)份額。
從 2017 年開始,蘋果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片(如下圖), AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限, 獨(dú)立的AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢(shì)的企業(yè)(如寒武紀(jì))一般通過 IP 授權(quán)的方式切入。
手機(jī) AI 芯片對(duì)比
對(duì)這些廠商來說,我們認(rèn)為 AI 化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù) IHS的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對(duì)于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透,蘋果 A11 芯片的成本已達(dá)到 27.5 美元。
智能手機(jī) SoC 市占率分析(2017)
芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營(yíng)業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身 ASP 的提升。
歷代 Apple 手機(jī)芯片成本趨勢(shì)
應(yīng)用場(chǎng)景1:推斷芯片為 AI 拍照技術(shù)提供硬件支持
智能手機(jī)通過 AI 算法+終端推斷芯片,可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別,并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化:
1)從整個(gè)場(chǎng)景識(shí)別,到特殊優(yōu)化過程中,推斷芯片為算法運(yùn)行提供硬件支持。
2)手機(jī)推斷芯片中 GPU、 NPU 等單元的協(xié)同工作,實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反” 級(jí)的景深效果,增加相片的層次感。
3)人臉結(jié)構(gòu)的識(shí)別也離不開邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了 AI 美顏、 3D 光效等特殊效果變得更加自然。 如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致 AI 攝影的識(shí)別率和準(zhǔn)確率下降,用戶體驗(yàn)將大打折扣。
手機(jī) AI 芯片輔助圖片渲染優(yōu)化
應(yīng)用場(chǎng)景2:推斷芯片助力語音助手處理復(fù)雜命令
從“聽清”到“聽懂”,自然語言理解能力提升與推斷芯片硬件的支持分不開:多麥克風(fēng)方案的普及解決了“聽清”的問題,而到“聽懂”的跨越中自然語言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式 AI 算法的發(fā)展,手機(jī) AI 芯片性能的提升,語音助手在識(shí)別語音模式、分辨模糊語音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語音命令。
手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令
用于安防邊緣推斷芯片: 海思、安霸與 Nvidia、 Mobileye 形成有力競(jìng)爭(zhēng)
視頻監(jiān)控行業(yè)在過去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著 2016年以來 AI 在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期——“智能化”的開始階段。 前端攝像頭裝備終端推斷芯片,可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計(jì)算解決方案逐漸滲透。 我們預(yù)計(jì), 應(yīng)用安防攝像頭的推斷芯片市場(chǎng)規(guī)模,將從 2017 年的 3.3 億美元,增長(zhǎng)至 2022 年的 18 億美元, CAGR~41%。
應(yīng)用場(chǎng)景:安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力
即便采用 H.265 編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右,不僅給存儲(chǔ)造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時(shí)間。 邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。 這樣既節(jié)省云端存儲(chǔ)空間, 也提升系統(tǒng)工作效率!耙曨l結(jié)構(gòu)化”,簡(jiǎn)言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過算法實(shí)現(xiàn),但硬件的支持不可或缺。
視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例
根據(jù)?低曁峁﹤鹘y(tǒng)視頻解碼芯片廠商積極布局 AI 升級(jí)。 華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成為第一款支持 8k 視頻的芯片;安霸也通過集成 Cvflows 張量處理器到最新的 CV2S 芯片中,以實(shí)現(xiàn)對(duì) CNN/DNN 算法的支持。
AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升
打入視頻監(jiān)控解決方案龍頭?低暎瑢(shí)現(xiàn)前裝的 Nvidia,Movidius 同樣不甘示弱, Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計(jì)算引擎,在 2W的功耗下可實(shí)現(xiàn) 1TOPS 的算力。Nvidia TX2 是 TX1 的升級(jí)產(chǎn)品,算力更強(qiáng),達(dá)到 1.5TFLOPS,存儲(chǔ)能力也有提升。
安防 AI 芯片對(duì)比
我們認(rèn)為,目前整個(gè)安防 AI 芯片市場(chǎng)競(jìng)爭(zhēng)格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長(zhǎng)期的合作,有望繼續(xù)受益于安防智能化的升級(jí),屬于新進(jìn)入者的市場(chǎng)空間有限。 安防 AI 芯片下游客戶穩(wěn)定,為?低暋⒋笕A股份等視頻監(jiān)控解決方案提供商?蛻襞c傳統(tǒng)視頻解碼芯片廠商的長(zhǎng)期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)弱一些,尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?