人工智能中工程化的NLP如何確保落地?
NLP的工程化,不是一個(gè)個(gè)算法的累積,也不是一個(gè)個(gè)任務(wù)的獨(dú)立優(yōu)化,而應(yīng)該是系統(tǒng)工程,綜合考慮語(yǔ)言、計(jì)算、場(chǎng)景等多種因素,不斷演進(jìn)融合,尋求效果滿意解的過(guò)程。根據(jù)赫伯特.西蒙(圖靈獎(jiǎng)和諾貝爾獎(jiǎng)雙料得主)的有限理性模型,受到所處環(huán)境的高度復(fù)雜性和有限的信息加工能力限制,因此NLP應(yīng)用落地時(shí),我們不可能遵循”最優(yōu)化“的策略,而應(yīng)該以獲取當(dāng)前可接受的“滿意解"為目標(biāo)。"最優(yōu)解"可以作為實(shí)驗(yàn)室環(huán)境下的研究目標(biāo),而”滿意解“是工程化的條件下我們唯一的選擇。
我們提出了“語(yǔ)言、計(jì)算、場(chǎng)景”三角形滿意解的NLP工程化技術(shù)路線,希望從工程化的角度,綜合語(yǔ)義的符號(hào)化表示、傳統(tǒng)語(yǔ)言學(xué)的知識(shí)表示、深度學(xué)習(xí)的算法模型等多種技術(shù),在具體場(chǎng)景需求的約束下,尋找NLP工程應(yīng)用的滿意解。
最小化的語(yǔ)言特征是基礎(chǔ)的語(yǔ)言資源
基礎(chǔ)的語(yǔ)言特征是有限的,否則,語(yǔ)言將呈不穩(wěn)定態(tài),人們之間互相理解語(yǔ)言也將不可能;A(chǔ)語(yǔ)言特征,包括詞庫(kù)、詞匯的句法語(yǔ)義屬性、詞匯之間的關(guān)聯(lián)性(同義、反義、上下位)等。比如,“打敗”是一個(gè)動(dòng)詞,“高興”是動(dòng)物的一種情緒,“勝利”和“失敗”的反義關(guān)系,“勝利”和“打敗”的同義關(guān)系等。這些詞語(yǔ)的意思和它們之間的關(guān)系,無(wú)論在那個(gè)行業(yè)場(chǎng)景中都是基本不變的。
我們已經(jīng)構(gòu)建了中文、英文的基礎(chǔ)語(yǔ)言特征集,其中包括80000多個(gè)常用詞匯,覆蓋了大部分常用詞匯。據(jù)統(tǒng)計(jì)中文常用的5萬(wàn)個(gè)詞可以覆蓋人民日?qǐng)?bào)新聞?dòng)迷~的99%;A(chǔ)的語(yǔ)言特征集是分類的,比如針對(duì)情感計(jì)算的基礎(chǔ)語(yǔ)言特征中包含了140多種情緒。
基礎(chǔ)的語(yǔ)言特征集,必須通過(guò)人工方式構(gòu)建。我們有30多人的語(yǔ)言學(xué)團(tuán)隊(duì),經(jīng)過(guò)長(zhǎng)達(dá)10年的積累,已初步構(gòu)建完善。
語(yǔ)言特征的泛化是必需的計(jì)算技術(shù)
語(yǔ)言的使用是動(dòng)態(tài)的,特定場(chǎng)景下的新詞、新用法會(huì)層出不窮的出現(xiàn)。比如“深度學(xué)習(xí)”原來(lái)不是一個(gè)詞,但近幾年被廣泛使用,特指一類神經(jīng)網(wǎng)絡(luò)算法。這一類的特征表示,可以采用機(jī)器學(xué)習(xí)算法(包括深度學(xué)習(xí)),從真實(shí)語(yǔ)料中自動(dòng)學(xué)習(xí),對(duì)基礎(chǔ)語(yǔ)言特征進(jìn)行擴(kuò)充和泛化。利用機(jī)器學(xué)習(xí)算法,也可以進(jìn)行同義詞的泛化,比如“查看、查查、查一查、查詢一下、查尋一下”等是“查詢”的同義詞。同時(shí),也可以開(kāi)展詞語(yǔ)關(guān)聯(lián)的泛化,比如“馬云-阿里巴巴”的關(guān)系和“馬化騰-騰訊”的關(guān)系類似等。
機(jī)器學(xué)習(xí)得到的新詞、新用法,可以通過(guò)相似度計(jì)算等算法,將學(xué)習(xí)結(jié)果與基礎(chǔ)語(yǔ)言特征對(duì)齊,以獲得新詞對(duì)應(yīng)的語(yǔ)言屬性。比如“深度學(xué)習(xí)”是一個(gè)名詞,是“算法”的下位,與“神經(jīng)網(wǎng)絡(luò)”同義等。對(duì)齊操作保證了泛化特征的一致性。
語(yǔ)言和算法的有效結(jié)合是關(guān)鍵
根據(jù)每一類語(yǔ)言結(jié)構(gòu)的特點(diǎn),有指導(dǎo)的選擇算法。比如,對(duì)于漢語(yǔ)的流水句的處理,哪些語(yǔ)言特征是流水句的激活特征,流水句是否適合LSTM算法,哪些特征參與LSTM的運(yùn)算等。而不是針對(duì)所有句法結(jié)構(gòu),采用一種LSTM模型來(lái)進(jìn)行句法分析。
語(yǔ)言結(jié)構(gòu)因?yàn)槠鋭?dòng)態(tài)性,不適合把結(jié)構(gòu)本身作為機(jī)器學(xué)習(xí)的輸入,而應(yīng)該在輸入側(cè),通過(guò)語(yǔ)料標(biāo)注或規(guī)則設(shè)計(jì),把結(jié)構(gòu)進(jìn)一步抽象成為一個(gè)更抽象的特征,輸入給機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法。如在形容詞謂語(yǔ)句的分析中,“形容詞短語(yǔ)”作為一個(gè)抽象特征,輸入給句子分析算法,而不用關(guān)心“形容詞短語(yǔ)”是用什么算法得到的。相反,機(jī)器學(xué)習(xí)算法的輸出,必須以語(yǔ)言特征或語(yǔ)言結(jié)構(gòu)的形式,這樣才能保證結(jié)果的可解釋性。
我們認(rèn)為,深度學(xué)習(xí)只是NLP算法庫(kù)中的一部分,也許只在某一個(gè)具體的環(huán)節(jié)中效果最好,對(duì)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法的“有的放矢”的使用,是NLP工程化的關(guān)鍵。
應(yīng)用場(chǎng)景是無(wú)法回避的約束條件
應(yīng)用場(chǎng)景是NLP應(yīng)用的需求和使用環(huán)境,不同的應(yīng)用場(chǎng)景,其約束條件是不同的。有的場(chǎng)景是處理營(yíng)銷數(shù)據(jù)的,有的是處理客服數(shù)據(jù)的;有的場(chǎng)景可以提供大量的標(biāo)注數(shù)據(jù),有的只能提供有限的業(yè)務(wù)規(guī)則;有的場(chǎng)景是同步的,有的是異步的。NLP應(yīng)用必須在滿足場(chǎng)景約束的前提下,選擇處理流程、計(jì)算算法、語(yǔ)料資源等內(nèi)容的配置。比如,對(duì)同樣一批數(shù)據(jù),同樣一個(gè)文本,營(yíng)銷場(chǎng)景和客服場(chǎng)景的輸出要求完全不同,所用算法也可完全不同,客服場(chǎng)景可以用分類算法,但營(yíng)銷場(chǎng)景也許需要用抽取算法。
很多NLP應(yīng)用場(chǎng)景下,客戶都希望在很短的時(shí)間內(nèi)、在沒(méi)有訓(xùn)練語(yǔ)料的情況下,快速看到NLP應(yīng)用的效果,實(shí)現(xiàn)“冷啟動(dòng)”。比如某電信企業(yè),客服的動(dòng)單分類有 2000 多項(xiàng)。電信自己整理了3個(gè)多月,每一個(gè)分類下的數(shù)據(jù)都很少,但電信也不可能在每一個(gè)細(xì)分小類,都幫助我們訓(xùn)練出那么大量的數(shù)據(jù),提供給機(jī)器學(xué)習(xí)算法訓(xùn)練。
“冷啟動(dòng)”的關(guān)鍵是規(guī)則方法與機(jī)器學(xué)習(xí)方法的有效融合。第一步,采用規(guī)則方法,構(gòu)建一批應(yīng)用規(guī)則,對(duì)應(yīng)用場(chǎng)景下的典型語(yǔ)料,進(jìn)行規(guī)則分析,針對(duì)性的獲取特征,并對(duì)典型語(yǔ)料進(jìn)行標(biāo)注。第二步,把典型語(yǔ)料的標(biāo)注數(shù)據(jù),作為機(jī)器學(xué)習(xí)算法的樣本,利用各種機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法去做擴(kuò)充、泛化。對(duì)泛化的結(jié)果,采用抽樣方法,進(jìn)行人工校驗(yàn),加入到典型語(yǔ)料中去。這樣循環(huán)處理,形成一個(gè)良性循環(huán),不斷的逼近客戶要求。
NLP工程化的目標(biāo)
NLP系統(tǒng)的開(kāi)發(fā)與應(yīng)用,既需要尊重語(yǔ)言學(xué)知識(shí),以語(yǔ)言學(xué)知識(shí)為指導(dǎo),又需要充分利用機(jī)器學(xué)習(xí)(深度學(xué)習(xí))技術(shù)的計(jì)算優(yōu)勢(shì),以機(jī)器學(xué)習(xí)為工具,持續(xù)迭代發(fā)展,才能在工程應(yīng)用中發(fā)揮NLP的能力,實(shí)現(xiàn)滿意解。
NLP工程化期望達(dá)到以下目標(biāo):
(1)可解釋性,NLP系統(tǒng)輸出的結(jié)果,應(yīng)該符合基本的語(yǔ)言學(xué)規(guī)律,可以用語(yǔ)言學(xué)的術(shù)語(yǔ)進(jìn)行解釋,而不是給出一堆雜亂無(wú)章的數(shù)據(jù),讓用戶從沙海淘金。
(2)一致性,NLP系統(tǒng)的處理過(guò)程,應(yīng)該是隨著處理對(duì)象的層次和深度,而逐步疊加模塊,下級(jí)模塊使用上級(jí)模塊的結(jié)果,方便進(jìn)行優(yōu)化。而不是針對(duì)每個(gè)任務(wù),采用“一竿子插到底”的復(fù)雜算法,中間過(guò)程完全是黑盒子。
(3)即用性,NLP系統(tǒng)的應(yīng)用,需要做到即插即用的“冷啟動(dòng)”,或者是在很小的數(shù)據(jù)集上進(jìn)行規(guī)則表述和預(yù)訓(xùn)練。一切需要用戶標(biāo)注海量數(shù)據(jù),才能啟動(dòng)的NLP系統(tǒng),都是耍流氓。
(4)可遷移性,NLP系統(tǒng),應(yīng)該在不用大的改動(dòng)前提下,即可遷移到類似場(chǎng)景。而不應(yīng)該是千人千面,過(guò)分個(gè)性化。
(5)自知之明,NLP系統(tǒng)的終極目標(biāo)是做到自知之明,系統(tǒng)對(duì)輸出的結(jié)果應(yīng)該有明確的置信度,哪些結(jié)果一定保證是對(duì)的,哪些一定是不對(duì)的,哪些是不確定,需要人工干預(yù)的。有了可靠的自知之明的能力,NLP系統(tǒng)才具備了達(dá)到人類理解水平的基本條件。
近兩年很多媒體報(bào)道,計(jì)算機(jī)在閱讀理解、機(jī)器翻譯等領(lǐng)域超過(guò)了人類水平,其實(shí)是媒體的一種夸大其辭的誤導(dǎo),計(jì)算機(jī)只是做了端到端的匹配,匹配結(jié)果與標(biāo)準(zhǔn)答案做了個(gè)百分比的統(tǒng)計(jì)。計(jì)算機(jī)對(duì)閱讀理解的內(nèi)容一無(wú)所知,對(duì)匹配結(jié)果的對(duì)錯(cuò)毫無(wú)概念,從自知之明的角度衡量的話,計(jì)算機(jī)的水平可能還達(dá)不到小學(xué)一年級(jí)學(xué)生的水平。
語(yǔ)言理解是人工智能皇冠上的明珠,要達(dá)到真正的理解能力,道阻且長(zhǎng);正確處理好語(yǔ)言、計(jì)算、場(chǎng)景的融合,NLP技術(shù)已經(jīng)可以在非結(jié)構(gòu)化轉(zhuǎn)結(jié)構(gòu)化等應(yīng)用方向上大展宏圖,取得巨大的商業(yè)價(jià)值。
自知之明的NLP終極目標(biāo),任重道遠(yuǎn),我們將與您一路同行。(作者:晉耀紅)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?