訂閱
糾錯
加入自媒體

華為云地協(xié)同方案加速網(wǎng)絡AI規(guī)模應用

2020-09-27 09:14
IT168
關注

人工智能經(jīng)歷了六十多年的浮浮沉沉,隨著計算算力的進步,算法的創(chuàng)新和互聯(lián)網(wǎng)發(fā)展下的海量數(shù)據(jù)積累,人工智能技術未來十年將煥發(fā)出新的活力,成為最具有沖擊力的科技發(fā)展趨勢之一。

電信網(wǎng)絡作為信息通信的基礎設施,具有應用人工智能技術的巨大空間和潛力。如何利用人工智能算法提供的強大分析、判斷、預測等能力,賦能網(wǎng)元、網(wǎng)絡和業(yè)務系統(tǒng),并將其與電信網(wǎng)絡的規(guī)劃、建設、維護、運行和優(yōu)化等工作內(nèi)容結合起來,成為電信業(yè)關注的重要課題。

在HUAWEI CONNECT 2020期間,華為基于對電信領域的深刻理解和多年經(jīng)驗沉淀,帶來了《云地協(xié)同加速網(wǎng)絡AI規(guī)模商用使能實現(xiàn)自動駕駛網(wǎng)絡》的分享,旨在結合電信領域應用場景,使能網(wǎng)絡達到自動、自愈、自優(yōu)和自治的自動駕駛網(wǎng)絡,提升整個網(wǎng)絡的效率,降低OPEX。

電信行業(yè)面臨挑戰(zhàn)呼喚ADN

我們正進入一個跨界競爭的新時代,每個行業(yè)都面臨著結構性挑戰(zhàn),電信行業(yè)尤其如此。新趨勢下,電信網(wǎng)絡正面臨以下三大挑戰(zhàn):

業(yè)務復雜:網(wǎng)絡所聯(lián)接的業(yè)務越來越多,無人機、汽車、AR/VR…從B2C到B2C、B2X,網(wǎng)絡所支撐的業(yè)務越來越復雜;

運維復雜:從4G到5G,2-3-4-5四代同堂,十余種網(wǎng)絡協(xié)議,數(shù)千網(wǎng)絡特性,上萬配置參數(shù),網(wǎng)絡運維復雜度激增;

聯(lián)接復雜:萬物智能,使得聯(lián)接密度增加了100倍,聯(lián)接移動性達到了150km/h,聯(lián)接的數(shù)據(jù)量增加1000倍,聯(lián)接復雜度前所未有;

要解決電信網(wǎng)絡面臨的挑戰(zhàn),僅僅靠產(chǎn)品創(chuàng)新遠遠不夠,需要整個系統(tǒng)架構創(chuàng)新和商業(yè)模式創(chuàng)新,才能提升運營商的競爭力,解決結構性問題。從2018年開始,為實現(xiàn)網(wǎng)絡自動化和智能化,電信行業(yè)組織、運營商和設備商紛紛啟動技術探索。

華為在2018年即提出電信行業(yè)邁向ADN五級演進標準,為實現(xiàn)自動駕駛網(wǎng)絡提供了參考。另外,以中國聯(lián)通、中國移動、BT、法電、Telstra為代表的運營商,以及以華為、愛立信為代表的設備供應商均積極開展相關實踐,網(wǎng)絡智能化、自動化成為行業(yè)熱點。

近10年來,華為從ALL IP,ALL Cloud進入ALL Intelligence時代,在架構創(chuàng)新的道路上從未停止。2019年4月,華為正式發(fā)布iMaster NAIE網(wǎng)絡AI云服務,為華為網(wǎng)絡智能化戰(zhàn)略實施的的重要里程碑。

不僅如此,華為自動駕駛網(wǎng)絡(ADN)秉承“把復雜留給自己,把簡單帶給客戶”的思想,以網(wǎng)絡極簡和智能運維為核心理念規(guī)劃、設計和開發(fā)產(chǎn)品,通過云端+AI、網(wǎng)絡+AI和網(wǎng)元+AI的三層AI開放架構“給網(wǎng)絡以智能,給運維以平臺”,加速電信運營商數(shù)字化和智能化轉型。

云地協(xié)同加速AI特性規(guī)模應用

近年來,全球業(yè)界各方在網(wǎng)絡AI方面紛紛進行積極的探索和實踐,經(jīng)過驗證在運維效率、能耗效率、網(wǎng)絡資源利用率以及用戶業(yè)務體驗提升等方面確實能夠帶來價值,電信產(chǎn)業(yè)走向智能化已經(jīng)成為整個行業(yè)的共識。但在實踐中,也發(fā)現(xiàn)網(wǎng)絡AI在走向規(guī);こ虘玫倪^程中存在很多挑戰(zhàn),如模型重訓練占用資源多、模型版本升級管理難度大、本地樣本少、模型精度不夠等問題。

模型重訓練占用資源多:從實踐統(tǒng)計來看,一些場景都會發(fā)生因泛化、或數(shù)據(jù)偏移而導致的模型精度下降問題,如無線流量預測、DC PUE優(yōu)化等,AI模型都需要進行重訓練。AI模型訓練一般會占用較多系統(tǒng)資源,如在網(wǎng)元或網(wǎng)管實施重訓練任務,訓練效率低,同時也可能會影響設備性能。

模型版本升級管理難度大:很多場景的AI模型都是一站一模型,如無線基站智能節(jié)能等,各站點的模型都根據(jù)本地化數(shù)據(jù)進行定制化訓練。各局點模型版本不同,升級頻度也不同,成千上萬的站點模型,管理難度很大。需要有一個統(tǒng)一的平臺,高效實現(xiàn)模型狀態(tài)的監(jiān)控和版本升級策略等管理任務。

本地樣本少、模型精度不夠:部分場景單局點樣本量少,不足以支撐模型訓練,如核心網(wǎng)KPI異常檢測,單局點發(fā)生異常頻率很少,訓練需要的樣本量不夠。因此,需要能夠匯聚所有局點的全量樣本信息,可能還需輔以聯(lián)邦學習等技術,才能訓練得到滿足業(yè)務精度要求的AI模型。

云地協(xié)同實現(xiàn)架構

針對以上問題,華為提出云地協(xié)同創(chuàng)新方案,通過云地協(xié)同,可以加速AI特性的規(guī)模部署。

云地協(xié)同,是指云端和地端一起協(xié)作完成數(shù)據(jù)樣本上云,模型狀態(tài)管理,模型重訓練,模型/知識下發(fā)、擇優(yōu)更新等一系列的閉環(huán)任務,同時把云端匯集的全局網(wǎng)絡知識經(jīng)驗、全量數(shù)據(jù)訓練得到的高精度模型,持續(xù)注入地端,讓電信網(wǎng)絡能夠進行智能的迭代升級,變得越來越聰明。

云地協(xié)同有三個主要的特征:一是云端和地端要有通道;二是地端到云端,信息可以從運營商上傳到云端,包括數(shù)據(jù)樣本、模型狀態(tài)、以及重訓練請求等信息,三是云端到地端可以下發(fā)新的模型,同時網(wǎng)絡知識庫里的知識也可以注入到地端。

云地協(xié)同機制參見下圖:

云地協(xié)同三個階段

據(jù)介紹,云地協(xié)同在實際應用部署時有三個階段,針對不同場景可以選擇適合的階段,最終大幅提高網(wǎng)絡的資源效率。

階段1:云端進行初始模型的訓練,運行態(tài)由地端根據(jù)新增的樣本進行在線學習,持續(xù)保持模型的精度。這種模式主要是適用于模型相對簡單,算法結構比較穩(wěn)定的場景,這種場景一般不需要對模型結構和算法本身進行更改,只需要根據(jù)本地數(shù)據(jù)進行在線學習,優(yōu)化調(diào)整模型參數(shù)。比如像核心網(wǎng)變更在線機器值守等。

階段2:云端進行模型的分發(fā),然后在地端根據(jù)新增樣本進行在線學習。具體講,就是云端會持續(xù)對模型進行優(yōu)化,包括模型算法結構上的,優(yōu)化后的模型會進行推送到地端,地端根據(jù)評估結果進行模型擇優(yōu)更新。同時,地端也會根據(jù)本地數(shù)據(jù)樣本的學習進行模型參數(shù)的優(yōu)化。這種一般適合于模型相對復雜,華為會持續(xù)進行模型算法結構優(yōu)化的場景,比如無線KPI 異常檢測等。

階段3:云地實時協(xié)同,模型可以自動化演進,具體講就是本地樣本會實時上傳到云端,云端進行訓練和優(yōu)化后的模型會自動推送到地端,地端進行模型評估擇優(yōu)進行升級。這種主要是適用于模型復雜、需要用到華為云端高質量標注數(shù)據(jù),知識圖譜以及仿真等知識能力進行模型優(yōu)化的場景,比如IP RAN/PTN智能告警,DC PUE優(yōu)化等。

云地協(xié)同關鍵價值

聯(lián)邦學習,即通過匯聚各個地端模型的參數(shù),在云端采用匯聚算法,形成效果更好的共享模型,再下發(fā)給各個地端進行使用,其最大的特點,就是在地端數(shù)據(jù)不用出局的情況下,提升模型的精度。借助聯(lián)邦學習可以更好的實現(xiàn)云地協(xié)同,從而提升模型泛化能力和訓練效率。

借助知識圖譜,通過沉淀專家經(jīng)驗和產(chǎn)品知識轉化形成故障傳播關系等,形成“網(wǎng)絡知識庫”,可用于故障運維輔助、知識問答等。

在云端仿真方面,通過在云端構建虛擬仿真環(huán)境,高效安全地進行模型或業(yè)務驗證,在避免現(xiàn)網(wǎng)性能或KPI受到影響的同時,支撐網(wǎng)絡問題的快速閉環(huán)。

模型因為需要進行更新,更新的方式如果采用傳統(tǒng)網(wǎng)管集成的這種模式,需要經(jīng)過多層多次的人工動作,首先模型版本發(fā)布后,需要產(chǎn)品研發(fā)把模型通過代碼工作集成到網(wǎng)管軟件版本里,然后發(fā)布到華為Support網(wǎng)站。

如果采用自動升級模式,通過云地協(xié)同,讓AI模型市場跟地端網(wǎng)絡AI對接,模型發(fā)布后進行推送,讓地端局點啟動自動化的模型升級,當然升級前也會完成模型的評估,整個過程在1個小時即可完成。

總結來看,云地協(xié)同可以實現(xiàn)一點生效,全網(wǎng)復制,AI的特性在一個局點成功實施后,快速的形成知識和經(jīng)驗,在其他局點進行復制,實現(xiàn)在全網(wǎng)規(guī)模應用。

華為iMaster NAIE讓網(wǎng)絡AI開發(fā)簡單高效

NAIE是自動駕駛網(wǎng)絡解決方案的網(wǎng)絡AI設計和開發(fā)平臺,由數(shù)據(jù)服務,訓練服務,AIOps使能服務,推理框架和生態(tài)服務五大部分組成。

網(wǎng)絡AI模型開發(fā)既要懂AI、又要懂網(wǎng)絡,技術門檻高。模型開發(fā)過程中,既需要懂AI知識,又需要熟悉網(wǎng)絡業(yè)務。電信領域專家AI積累少,可借鑒經(jīng)驗少。而且由于AI算法多,選擇范圍廣,所以導致試錯成本高、開發(fā)效率低;算法科學家不懂電信業(yè)務,需要花大量時間了解學習。模型訓練依賴大量并且昂貴的計算資源,調(diào)參優(yōu)化周期長,訓練耗時高、周期長。

NAIE訓練平臺,提供一站式高效模型訓練,集成業(yè)界通用的主流AI算法框架,包括Mindspore、Tensorflow、SParkML、Caffe2、MXNet等,內(nèi)嵌華為在網(wǎng)絡領域30多年的知識和經(jīng)驗沉淀,支持電信領域的特征處理,輔助快速識別等關鍵特征,內(nèi)置電信領域AI典型算法,如異常檢測、根因分析、優(yōu)化控制、業(yè)務預測等,支持模型快速驗證。目前主要包括三類服務:模型訓練服務、模型生成服務和通信模型服務(在線推理),可以滿足不同層次的人員對于模型開發(fā)的需求。

不僅如此,華為還提供了豐富的NAIE培訓服務,線上線下結合,助力運營商人才轉型。

總結

未來是智能化的時代,運營商網(wǎng)絡智能化不可能一蹴而就,而是一個長期實踐。華為自動駕駛網(wǎng)絡解決方案是華為All Intelligence戰(zhàn)略在電信領域的落地,而iMaster NAIE做為智能化部件,將使能自動駕駛網(wǎng)絡。核心的AI能力依托華為在All Intelligence中長期堅決的戰(zhàn)略投入而積累成長,和電信領域場景想結合,幫助運營商盡快實現(xiàn)數(shù)字化,智能化轉型。

作者:陶然編輯: 陶然來源:IT168網(wǎng)站  原創(chuàng)

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號