亚洲福利精品一区二区三区,亚洲无码中文字幕亚洲

一文看懂AI芯片最新格局

2018-10-23 09:23

云端推斷芯片：百家爭鳴，各有千秋

推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算，利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。推斷過程對(duì)響應(yīng)速度一般有較高要求，因此會(huì)采用 AI 芯片（搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型）進(jìn)行加速。

相比訓(xùn)練芯片，推斷芯片考慮的因素更加綜合：單位功耗算力，時(shí)延，成本等等。初期推斷也采用 GPU 進(jìn)行加速，但由于應(yīng)用場景的特殊性，依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會(huì)帶來更高的效率， FPGA／ASIC 的表現(xiàn)可能更突出。除了 Nvidia、 Google、 Xilinx、 Altera（Intel）等傳統(tǒng)芯片大廠涉足云端推斷芯片以外， Wave computing、 Groq 等初創(chuàng)公司也加入競爭。中國公司里，寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。

主要云端推斷芯片對(duì)比

我們認(rèn)為，云端推斷芯片在未來會(huì)呈現(xiàn)百花齊放的態(tài)勢。具體情況如下：

Nvidia

在云端推斷芯片領(lǐng)域， Nvidia 主打產(chǎn)品為 P40 和 P4，二者均采用 TSMC 16nm 制程。 TeslaP4 擁有 2560 個(gè)流處理器，每秒可進(jìn)行 22 萬億次（TOPS）計(jì)算（對(duì)應(yīng) INT 8）。而性能更強(qiáng)的 Tesla P40 擁有 3840 個(gè)流處理器，每秒可進(jìn)行 47 萬億次（TOPS）計(jì)算（對(duì)應(yīng) INT 8）。從單位功耗推斷能力來看， P4／P40 雖然有進(jìn)步，但仍遜于 TPU。 GPU 在推斷上的優(yōu)勢是帶寬。

Google

Google TPU 1．0 為云端推斷而生，其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化，并采用整數(shù)運(yùn)算。 TPU 1．0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng)，達(dá) 1．2TOPS／Watt，優(yōu)于主流 Nvidia GPU。 TPU 2．0 在推斷表現(xiàn)上相比于 1 代并沒有本質(zhì)提升，主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持，及更高的片上內(nèi)存。正如前文所述，支持訓(xùn)練的 TPU 功耗也會(huì)變得更高。

Wave Computing

Wave computing 于 2010 年 12 月成立于加州，目前累計(jì)融資 1．2 億美元，是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS，且無需 CPU 來管理工作流。目前公司正與 Broadcomm 合作在開發(fā)二代芯片，將采用 7nm制程。

Groq

Groq 是由 Google TPU 初始團(tuán)隊(duì)離職創(chuàng)建的 AI 芯片公司，計(jì)劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品，對(duì)標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs（INT 8），單位能耗效率表現(xiàn)搶眼。

寒武紀(jì)科技

寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100，同時(shí)支持訓(xùn)練和推斷，但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS（對(duì)應(yīng) INT 8）的運(yùn)算能力。

比特大陸

比特大陸的計(jì)算芯片 BM 1680，集成了深度學(xué)習(xí)算法硬件加速模塊（NPUs），應(yīng)用于云端計(jì)算與推理。 BM1680 還提供了 4 個(gè)獨(dú)立的 DDR4 通道，用于高速數(shù)據(jù)緩存讀取，以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W，在單位能耗推斷效率上有一定優(yōu)勢。

應(yīng)用場景1：云端推斷芯片助力智能語音識(shí)別

云端推斷芯片提升語音識(shí)別速度。語音識(shí)別是推斷芯片的工作場景之一，如 Amazon 的語音助手 Alexa，其“智能”來自于 AWS 云中的推斷芯片。 Alexa 是預(yù)裝在亞馬遜 Echo內(nèi)的個(gè)人虛擬助手，可以接收及相應(yīng)語音命令。通過將語音數(shù)據(jù)上傳到云端，輸入推斷芯片進(jìn)行計(jì)算，再返回結(jié)果至本地來達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作，由于算力低，識(shí)別中會(huì)有 300－400ms 的延遲，影響用戶體驗(yàn)。

智能音箱通過云端推斷芯片工作

而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片，結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎（一個(gè) C＋＋庫），可以將延遲縮減到 7ms。此外， AI 芯片支持深度學(xué)習(xí)，降低了語音識(shí)別錯(cuò)誤率。目前，借助云端芯片的良好推斷能力，百度語音助手的語音識(shí)別準(zhǔn)確度已達(dá)到 97％之高。

Nvidia 云端推斷芯片提升語音識(shí)別速度

應(yīng)用場景2：推斷芯片應(yīng)用于智能搜索

RankBrain 是 Google 眾多搜索算法的一部分，它是一套計(jì)算機(jī)程序，能把知識(shí)庫中上十億個(gè)頁面進(jìn)行排序，然后找到與特定查詢最相關(guān)的結(jié)果。目前， Google 每天要處理 30 億條搜索，而其中 15％的詞語是 Google 沒有見過的。 RankBrain 可以觀察到看似無關(guān)復(fù)雜搜索之間的模式，并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的，實(shí)現(xiàn)了對(duì)輸入的語義理解。這種能力離不開 Google 云端推斷芯片 TPU 的輔助。

推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語義識(shí)別

先前，在沒有深度學(xué)習(xí)情況下，單純依靠 PageRanking 及 InvertedIndex， Google 也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化，但準(zhǔn)確率不夠。 TPU 利用 RankBrain 中的深度學(xué)習(xí)模型，在 80％的情況下計(jì)算出的置頂詞條，均是人們最想要的結(jié)果。

TPU＋RankBrain 在推斷正確率上獲得提高

用于智能手機(jī)的邊緣推斷芯片：競爭格局穩(wěn)定，傳統(tǒng)廠商持續(xù)受益

手機(jī)芯片市場目前包括：（1）蘋果，三星，華為這類采用芯片＋整機(jī)垂直商業(yè)模式的廠商，以及（2）高通，聯(lián)發(fā)科，展銳等獨(dú)立芯片供應(yīng)商和（3） ARM， Synopsys、 Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售，只服務(wù)于自身品牌的整機(jī)，性能針對(duì)自身軟件做出了特殊優(yōu)化，靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo)，來獲得剩余廠商的市場份額。

從 2017 年開始，蘋果，華為海思，高通，聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片（如下圖）， AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限，獨(dú)立的AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢的企業(yè)（如寒武紀(jì)）一般通過 IP 授權(quán)的方式切入。

手機(jī) AI 芯片對(duì)比

對(duì)這些廠商來說，我們認(rèn)為 AI 化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù) IHS的數(shù)據(jù)，隨著硬件性能的增強(qiáng)及針對(duì)于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透，蘋果 A11 芯片的成本已達(dá)到 27．5 美元。

智能手機(jī) SoC 市占率分析（2017）

芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高，在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身 ASP 的提升。

歷代 Apple 手機(jī)芯片成本趨勢

應(yīng)用場景1：推斷芯片為 AI 拍照技術(shù)提供硬件支持

智能手機(jī)通過 AI 算法＋終端推斷芯片，可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別，并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化：

1）從整個(gè)場景識(shí)別，到特殊優(yōu)化過程中，推斷芯片為算法運(yùn)行提供硬件支持。

2）手機(jī)推斷芯片中 GPU、 NPU 等單元的協(xié)同工作，實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理，使小尺寸感光元件的手機(jī)獲得“單反” 級(jí)的景深效果，增加相片的層次感。

3）人臉結(jié)構(gòu)的識(shí)別也離不開邊緣推斷芯片，芯片性能的提升直接導(dǎo)致了 AI 美顏、 3D 光效等特殊效果變得更加自然。如果缺少終端芯片的支持，一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠，導(dǎo)致 AI 攝影的識(shí)別率和準(zhǔn)確率下降，用戶體驗(yàn)將大打折扣。

手機(jī) AI 芯片輔助圖片渲染優(yōu)化

應(yīng)用場景2：推斷芯片助力語音助手處理復(fù)雜命令

從“聽清”到“聽懂”，自然語言理解能力提升與推斷芯片硬件的支持分不開：多麥克風(fēng)方案的普及解決了“聽清”的問題，而到“聽懂”的跨越中自然語言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求，也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式 AI 算法的發(fā)展，手機(jī) AI 芯片性能的提升，語音助手在識(shí)別語音模式、分辨模糊語音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化，可以接受理解更加復(fù)雜的語音命令。

手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令

用于安防邊緣推斷芯片：海思、安霸與 Nvidia、 Mobileye 形成有力競爭

視頻監(jiān)控行業(yè)在過去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代，而隨著 2016年以來 AI 在視頻分析領(lǐng)域的突破，目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期——“智能化”的開始階段。前端攝像頭裝備終端推斷芯片，可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，“云＋邊緣”的邊緣計(jì)算解決方案逐漸滲透。我們預(yù)計(jì)，應(yīng)用安防攝像頭的推斷芯片市場規(guī)模，將從 2017 年的 3．3 億美元，增長至 2022 年的 18 億美元， CAGR～41％。

應(yīng)用場景：安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取，減輕云端壓力

即便采用 H．265 編碼，目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右，不僅給存儲(chǔ)造成了很大的壓力，也增加了數(shù)據(jù)的傳輸時(shí)間。邊緣推斷芯片在安防端的主要應(yīng)用，基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。這樣既節(jié)省云端存儲(chǔ)空間，也提升系統(tǒng)工作效率�！耙曨l結(jié)構(gòu)化”，簡言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo)，包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過算法實(shí)現(xiàn)，但硬件的支持不可或缺。

視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例

根據(jù)海康威視提供傳統(tǒng)視頻解碼芯片廠商積極布局 AI 升級(jí)。華為海思、安霸（Ambarella）都在近一年內(nèi)推出了支持 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎，并成為第一款支持 8k 視頻的芯片；安霸也通過集成 Cvflows 張量處理器到最新的 CV2S 芯片中，以實(shí)現(xiàn)對(duì) CNN／DNN 算法的支持。

AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升

打入視頻監(jiān)控解決方案龍頭�？低�，實(shí)現(xiàn)前裝的 Nvidia，Movidius 同樣不甘示弱， Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計(jì)算引擎，在 2W的功耗下可實(shí)現(xiàn) 1TOPS 的算力。Nvidia TX2 是 TX1 的升級(jí)產(chǎn)品，算力更強(qiáng)，達(dá)到 1．5TFLOPS，存儲(chǔ)能力也有提升。

安防 AI 芯片對(duì)比

我們認(rèn)為，目前整個(gè)安防 AI 芯片市場競爭格局穩(wěn)定，現(xiàn)有廠商憑借與下游客戶長期的合作，有望繼續(xù)受益于安防智能化的升級(jí)，屬于新進(jìn)入者的市場空間有限。安防 AI 芯片下游客戶穩(wěn)定，為�？低�、大華股份等視頻監(jiān)控解決方案提供商�？蛻襞c傳統(tǒng)視頻解碼芯片廠商的長期合作具有粘性，同樣推出新產(chǎn)品，初創(chuàng)公司的競爭優(yōu)勢弱一些，尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的，請(qǐng)聯(lián)系我們。