訂閱
糾錯(cuò)
加入自媒體

一文看懂AI芯片最新格局

云端推斷芯片:百家爭(zhēng)鳴,各有千秋

推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算, 利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。 推斷過程對(duì)響應(yīng)速度一般有較高要求, 因此會(huì)采用 AI 芯片(搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行加速。

相比訓(xùn)練芯片,推斷芯片考慮的因素更加綜合:?jiǎn)挝还乃懔,時(shí)延,成本等等。初期推斷也采用 GPU 進(jìn)行加速,但由于應(yīng)用場(chǎng)景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率, FPGA/ASIC 的表現(xiàn)可能更突出。除了 Nvidia、 Google、 Xilinx、 Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推斷芯片以外, Wave computing、 Groq 等初創(chuàng)公司也加入競(jìng)爭(zhēng)。中國(guó)公司里,寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。

主要云端推斷芯片對(duì)比

我們認(rèn)為, 云端推斷芯片在未來會(huì)呈現(xiàn)百花齊放的態(tài)勢(shì)。 具體情況如下:

Nvidia

在云端推斷芯片領(lǐng)域, Nvidia 主打產(chǎn)品為 P40 和 P4, 二者均采用 TSMC 16nm 制程。 TeslaP4 擁有 2560 個(gè)流處理器,每秒可進(jìn)行 22 萬億次(TOPS) 計(jì)算(對(duì)應(yīng) INT 8)。而性能更強(qiáng)的 Tesla P40 擁有 3840 個(gè)流處理器,每秒可進(jìn)行 47 萬億次(TOPS)計(jì)算(對(duì)應(yīng) INT 8)。從單位功耗推斷能力來看, P4/P40 雖然有進(jìn)步,但仍遜于 TPU。 GPU 在推斷上的優(yōu)勢(shì)是帶寬。

Google

Google TPU 1.0 為云端推斷而生,其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。 TPU 1.0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá) 1.2TOPS/Watt,優(yōu)于主流 Nvidia GPU。 TPU 2.0 在推斷表現(xiàn)上相比于 1 代并沒有本質(zhì)提升,主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的 TPU 功耗也會(huì)變得更高。

Wave Computing

Wave computing 于 2010 年 12 月成立于加州,目前累計(jì)融資 1.2 億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS,且無需 CPU 來管理工作流。目前公司正與 Broadcomm 合作在開發(fā)二代芯片,將采用 7nm制程。

Groq

Groq 是由 Google TPU 初始團(tuán)隊(duì)離職創(chuàng)建的 AI 芯片公司,計(jì)劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品,對(duì)標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs(INT 8),單位能耗效率表現(xiàn)搶眼。

寒武紀(jì)科技

寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100,同時(shí)支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS(對(duì)應(yīng) INT 8)的運(yùn)算能力。

比特大陸

比特大陸的計(jì)算芯片 BM 1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計(jì)算與推理。 BM1680 還提供了 4 個(gè)獨(dú)立的 DDR4 通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W,在單位能耗推斷效率上有一定優(yōu)勢(shì)。

應(yīng)用場(chǎng)景1:云端推斷芯片助力智能語音識(shí)別

云端推斷芯片提升語音識(shí)別速度。 語音識(shí)別是推斷芯片的工作場(chǎng)景之一,如 Amazon 的語音助手 Alexa,其“智能”來自于 AWS 云中的推斷芯片。 Alexa 是預(yù)裝在亞馬遜 Echo內(nèi)的個(gè)人虛擬助手,可以接收及相應(yīng)語音命令。通過將語音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計(jì)算,再返回結(jié)果至本地來達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作,由于算力低,識(shí)別中會(huì)有 300-400ms 的延遲,影響用戶體驗(yàn)。

智能音箱通過云端推斷芯片工作

而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片,結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個(gè) C++庫),可以將延遲縮減到 7ms。 此外, AI 芯片支持深度學(xué)習(xí),降低了語音識(shí)別錯(cuò)誤率。 目前, 借助云端芯片的良好推斷能力,百度語音助手的語音識(shí)別準(zhǔn)確度已達(dá)到 97%之高。

Nvidia 云端推斷芯片提升語音識(shí)別速度

應(yīng)用場(chǎng)景2:推斷芯片應(yīng)用于智能搜索

RankBrain 是 Google 眾多搜索算法的一部分,它是一套計(jì)算機(jī)程序,能把知識(shí)庫中上十億個(gè)頁面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。 目前, Google 每天要處理 30 億條搜索,而其中 15%的詞語是 Google 沒有見過的。 RankBrain 可以觀察到看似無關(guān)復(fù)雜搜索之間的模式,并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的, 實(shí)現(xiàn)了對(duì)輸入的語義理解。 這種能力離不開 Google 云端推斷芯片 TPU 的輔助。

推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語義識(shí)別

先前,在沒有深度學(xué)習(xí)情況下,單純依靠 PageRanking 及 InvertedIndex, Google 也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。 TPU 利用 RankBrain 中的深度學(xué)習(xí)模型,在 80%的情況下計(jì)算出的置頂詞條,均是人們最想要的結(jié)果。

TPU+RankBrain 在推斷正確率上獲得提高

用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益

手機(jī)芯片市場(chǎng)目前包括:(1)蘋果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商,以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3) ARM, Synopsys、 Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。 采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對(duì)自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo),來獲得剩余廠商的市場(chǎng)份額。

從 2017 年開始,蘋果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片(如下圖), AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限, 獨(dú)立的AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢(shì)的企業(yè)(如寒武紀(jì))一般通過 IP 授權(quán)的方式切入。

手機(jī) AI 芯片對(duì)比

對(duì)這些廠商來說,我們認(rèn)為 AI 化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù) IHS的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對(duì)于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透,蘋果 A11 芯片的成本已達(dá)到 27.5 美元。

智能手機(jī) SoC 市占率分析(2017)

芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營(yíng)業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身 ASP 的提升。

歷代 Apple 手機(jī)芯片成本趨勢(shì)

應(yīng)用場(chǎng)景1:推斷芯片為 AI 拍照技術(shù)提供硬件支持

智能手機(jī)通過 AI 算法+終端推斷芯片,可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別,并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化:

1)從整個(gè)場(chǎng)景識(shí)別,到特殊優(yōu)化過程中,推斷芯片為算法運(yùn)行提供硬件支持。

2)手機(jī)推斷芯片中 GPU、 NPU 等單元的協(xié)同工作,實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反” 級(jí)的景深效果,增加相片的層次感。

3)人臉結(jié)構(gòu)的識(shí)別也離不開邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了 AI 美顏、 3D 光效等特殊效果變得更加自然。 如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致 AI 攝影的識(shí)別率和準(zhǔn)確率下降,用戶體驗(yàn)將大打折扣。

手機(jī) AI 芯片輔助圖片渲染優(yōu)化

應(yīng)用場(chǎng)景2:推斷芯片助力語音助手處理復(fù)雜命令

從“聽清”到“聽懂”,自然語言理解能力提升與推斷芯片硬件的支持分不開:多麥克風(fēng)方案的普及解決了“聽清”的問題,而到“聽懂”的跨越中自然語言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式 AI 算法的發(fā)展,手機(jī) AI 芯片性能的提升,語音助手在識(shí)別語音模式、分辨模糊語音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語音命令。

手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令

用于安防邊緣推斷芯片: 海思、安霸與 Nvidia、 Mobileye 形成有力競(jìng)爭(zhēng)

視頻監(jiān)控行業(yè)在過去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著 2016年以來 AI 在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期——“智能化”的開始階段。 前端攝像頭裝備終端推斷芯片,可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計(jì)算解決方案逐漸滲透。 我們預(yù)計(jì), 應(yīng)用安防攝像頭的推斷芯片市場(chǎng)規(guī)模,將從 2017 年的 3.3 億美元,增長(zhǎng)至 2022 年的 18 億美元, CAGR~41%。

應(yīng)用場(chǎng)景:安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力

即便采用 H.265 編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右,不僅給存儲(chǔ)造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時(shí)間。 邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。 這樣既節(jié)省云端存儲(chǔ)空間, 也提升系統(tǒng)工作效率!耙曨l結(jié)構(gòu)化”,簡(jiǎn)言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過算法實(shí)現(xiàn),但硬件的支持不可或缺。

視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例

根據(jù)?低曁峁﹤鹘y(tǒng)視頻解碼芯片廠商積極布局 AI 升級(jí)。 華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成為第一款支持 8k 視頻的芯片;安霸也通過集成 Cvflows 張量處理器到最新的 CV2S 芯片中,以實(shí)現(xiàn)對(duì) CNN/DNN 算法的支持。

AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升

打入視頻監(jiān)控解決方案龍頭?低暎瑢(shí)現(xiàn)前裝的 Nvidia,Movidius 同樣不甘示弱, Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計(jì)算引擎,在 2W的功耗下可實(shí)現(xiàn) 1TOPS 的算力。Nvidia TX2 是 TX1 的升級(jí)產(chǎn)品,算力更強(qiáng),達(dá)到 1.5TFLOPS,存儲(chǔ)能力也有提升。

安防 AI 芯片對(duì)比

我們認(rèn)為,目前整個(gè)安防 AI 芯片市場(chǎng)競(jìng)爭(zhēng)格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長(zhǎng)期的合作,有望繼續(xù)受益于安防智能化的升級(jí),屬于新進(jìn)入者的市場(chǎng)空間有限。 安防 AI 芯片下游客戶穩(wěn)定,為?低暋⒋笕A股份等視頻監(jiān)控解決方案提供商?蛻襞c傳統(tǒng)視頻解碼芯片廠商的長(zhǎng)期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)弱一些,尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。

<上一頁  1  2  3  下一頁>  
聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)