英特爾AI芯片業(yè)務(wù)的現(xiàn)在與未來發(fā)展
Nervana
早在2017年,英特爾首次宣布其正在研發(fā)的兩款A(yù)I加速器芯片:一款用于推斷工作負(fù)載,另一款用于訓(xùn)練。今年1月份,英特爾在消費電子展(Consumer Electronics Show,簡稱CES)新聞發(fā)布會上進(jìn)一步詳細(xì)介紹了這款推斷產(chǎn)品。它被稱為Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processor,即NNP-I),它適用于PCIe插槽(或基于OCP加速器模塊規(guī)格的夾層板),采用10nm工藝制造,并涵蓋了基于英特爾Ice Lake架構(gòu)處理器的一般性操作,以及神經(jīng)網(wǎng)絡(luò)加速。
NNP-I針對圖像識別進(jìn)行了優(yōu)化,其架構(gòu)與其他芯片截然不同;它沒有標(biāo)準(zhǔn)的緩存層次結(jié)構(gòu),其處理器內(nèi)嵌的內(nèi)存由軟件直接管理。Singer表示,由于其高速的芯片內(nèi)外互連,NNP-I 能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)參數(shù)分散到多個芯片上,從而實現(xiàn)非常高的并行性。此外,它還使用了一種新的數(shù)字格式—— Flexpoint,這種格式可以提高推斷任務(wù)中至關(guān)重要的標(biāo)量計算,讓芯片能夠適應(yīng)大型機器學(xué)習(xí)模型,同時保持“行業(yè)領(lǐng)先”的功耗。
Singer表示,“圖像可能是最適合加速器的情況,因為很多圖像識別功能都是矩陣乘法。“自然語言處理和推薦系統(tǒng)需要更多的混合類型的計算,該CPU核心可以在本地執(zhí)行大量的張量活動和 CPU 任務(wù),而無需將數(shù)據(jù)移出芯片!
NNP-I的量產(chǎn)仍然任重道遠(yuǎn),但Singer表示,它已經(jīng)在英特爾的實驗室中運行了多種拓?fù)浣Y(jié)構(gòu)。他預(yù)計今年有望投入生產(chǎn),支持Facebook的Glow Compiler——這是一款機器學(xué)習(xí)編譯器,旨在加速深度學(xué)習(xí)框架的性能。
上述代號為“Spring Crest”的加速芯片Nervana Neural Net L-1000可能與 NNP-I 一起出現(xiàn)。這種16nm 芯片的24個計算集群提供的AI訓(xùn)練性能是同類芯片的10倍,是英特爾首款NNP芯片Lake Crest的3-4倍。
Singer不愿透露更多信息,但他表示,有關(guān)Spring Crest 的更多細(xì)節(jié)將在未來幾個月內(nèi)公布。
光子集成電路
根據(jù)英特爾AI產(chǎn)品部門內(nèi)負(fù)責(zé)硅光子組的Wierzynski所說,NNP-I和Spring Crest之外的芯片可能與如今的AI加速器芯片截然不同。目前,光子集成電路(光學(xué)芯片的基礎(chǔ))的工作正在進(jìn)行中,與同類電子集成電路相比,光子集成電路有許多優(yōu)點。
Wierzynski表示:“幾年前,麻省理工學(xué)院出版的一篇論文吸引了我的注意。文中提到了在電子產(chǎn)品使用光子。光子具有非常好的特性,它們可以在物質(zhì)中快速移動,而且你可以通過一些方式控制光,讓它為你做有意義的事請!
Wierzynski指的是總部位于波士頓的光子技術(shù)創(chuàng)業(yè)公司Lightelligence首席執(zhí)行官沈亦晨,與師從麻省理工學(xué)院物理系教授Marin Soljacic的一名光子材料的博士學(xué)生于2017年在《自然光子學(xué)》雜志上發(fā)表的一篇研究論文,文中描述了一種利用光學(xué)干涉實現(xiàn)神經(jīng)網(wǎng)絡(luò)工作負(fù)載的新方法。
Wierzynski說:“加速深度學(xué)習(xí)的關(guān)鍵問題之一是,在芯片越來越小的情況下,如何滿足這種延遲越來越低的需求?我們在挑戰(zhàn)硅芯片的極限。這說明一方面你需要一定的計算性能,同時又需要在一定程度上控制功耗。”
為此,像Lightelligence這樣的光學(xué)芯片只需要有限的能量,因為光產(chǎn)生的熱量比電少。而且光也不易受環(huán)境溫度、電磁場和其他噪音的影響。
此外,采用光子的設(shè)計中,延遲比硅材料改善了10,000倍,同時功耗水平還降低了幾個數(shù)量級。在初步的測試中,與最先進(jìn)的電子芯片相比,某些矩陣矢量乘法運算速度提高了100倍。
Wierzynski說:“我們希望你能夠使用與人們現(xiàn)在使用的AI模型很相近的模型。我們也正在學(xué)習(xí)更多關(guān)于如何大規(guī)模構(gòu)建光子電路的知識。這聽起來很像《星際迷航》!
然而,這并非一件易事。正如Wierzynski所指出的那樣,除了矩陣乘法之外,神經(jīng)網(wǎng)絡(luò)還有第二個基本特征:非線性。如果沒有非線性,那么神經(jīng)網(wǎng)絡(luò)只能簡單地計算輸入的加權(quán)和,而不能做出預(yù)測。遺憾的是,關(guān)于在光學(xué)領(lǐng)域中可以執(zhí)行何種非線性操作的問題仍然存在。一種可能的解決方案是,在同一芯片上結(jié)合硅和光學(xué)電路的混合方法。Wierzynski表示,神經(jīng)網(wǎng)絡(luò)的一些部分可以采用光學(xué)的方式運行,而其余的部分則仍以電子的方式運行。
但是,這并不能解決光學(xué)芯片的縮放問題。速度非常快的光子電路需要快速的存儲器,而且還需要將所有元件(包括激光器、調(diào)制器和光學(xué)組合器)全部封裝在大約200毫米的晶圓上。
Wierzynski說:“任何制造過程中都存在不完善之處,這意味著芯片內(nèi)部和芯片之間會有細(xì)微的變化,這些會影響計算的準(zhǔn)確性。”
幸運的是,他和同事們正在努力尋找解決方案。在最近的一篇論文中,他們描述了在馬赫-曾德爾干涉儀(Mach–Zehnder interferometer,簡稱MZI)上構(gòu)建AI系統(tǒng)的兩種架構(gòu),MZIs 是一種光子電路,經(jīng)過設(shè)置后可以在兩束光的相位相關(guān)的量之間執(zhí)行2×2矩陣乘法。
在基準(zhǔn)手寫數(shù)字識別(MNIST)的深度學(xué)習(xí)任務(wù)上,對這兩種體系結(jié)構(gòu)進(jìn)行模擬訓(xùn)練后,研究人員發(fā)現(xiàn),在雙精度浮點的精度下,GridNet 的準(zhǔn)確度比FFTNet更高(98%對95%)。重要的是,F(xiàn)FTNet表現(xiàn)出強大的穩(wěn)健性,即使加入了人工噪聲,它的準(zhǔn)確率也從未低于50%。
Wierzynski表示,這項研究為人工智能軟件訓(xùn)練技術(shù)奠定了基礎(chǔ),可以避免在制造后對光學(xué)芯片進(jìn)行微調(diào),因此省時省力。
他補充道:“這是英特爾在過去幾十年中為光電路開發(fā)的非常復(fù)雜的制造技術(shù),同時英特爾也賦予了這種技術(shù)一個全新的目的。雖然目前這種技術(shù)還處于初期階段,這個領(lǐng)域內(nèi)還有大量工作需要做,但我已然興奮不已了!

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?