人工智能中工程化的NLP如何確保落地?
NLP的工程化,不是一個(gè)個(gè)算法的累積,也不是一個(gè)個(gè)任務(wù)的獨(dú)立優(yōu)化,而應(yīng)該是系統(tǒng)工程,綜合考慮語言、計(jì)算、場(chǎng)景等多種因素,不斷演進(jìn)融合,尋求效果滿意解的過程。根據(jù)赫伯特.西蒙(圖靈獎(jiǎng)和諾貝爾獎(jiǎng)雙料得主)的有限理性模型,受到所處環(huán)境的高度復(fù)雜性和有限的信息加工能力限制,因此NLP應(yīng)用落地時(shí),我們不可能遵循”最優(yōu)化“的策略,而應(yīng)該以獲取當(dāng)前可接受的“滿意解"為目標(biāo)。"最優(yōu)解"可以作為實(shí)驗(yàn)室環(huán)境下的研究目標(biāo),而”滿意解“是工程化的條件下我們唯一的選擇。
我們提出了“語言、計(jì)算、場(chǎng)景”三角形滿意解的NLP工程化技術(shù)路線,希望從工程化的角度,綜合語義的符號(hào)化表示、傳統(tǒng)語言學(xué)的知識(shí)表示、深度學(xué)習(xí)的算法模型等多種技術(shù),在具體場(chǎng)景需求的約束下,尋找NLP工程應(yīng)用的滿意解。
最小化的語言特征是基礎(chǔ)的語言資源
基礎(chǔ)的語言特征是有限的,否則,語言將呈不穩(wěn)定態(tài),人們之間互相理解語言也將不可能;A(chǔ)語言特征,包括詞庫、詞匯的句法語義屬性、詞匯之間的關(guān)聯(lián)性(同義、反義、上下位)等。比如,“打敗”是一個(gè)動(dòng)詞,“高興”是動(dòng)物的一種情緒,“勝利”和“失敗”的反義關(guān)系,“勝利”和“打敗”的同義關(guān)系等。這些詞語的意思和它們之間的關(guān)系,無論在那個(gè)行業(yè)場(chǎng)景中都是基本不變的。
我們已經(jīng)構(gòu)建了中文、英文的基礎(chǔ)語言特征集,其中包括80000多個(gè)常用詞匯,覆蓋了大部分常用詞匯。據(jù)統(tǒng)計(jì)中文常用的5萬個(gè)詞可以覆蓋人民日?qǐng)?bào)新聞?dòng)迷~的99%;A(chǔ)的語言特征集是分類的,比如針對(duì)情感計(jì)算的基礎(chǔ)語言特征中包含了140多種情緒。
基礎(chǔ)的語言特征集,必須通過人工方式構(gòu)建。我們有30多人的語言學(xué)團(tuán)隊(duì),經(jīng)過長達(dá)10年的積累,已初步構(gòu)建完善。
語言特征的泛化是必需的計(jì)算技術(shù)
語言的使用是動(dòng)態(tài)的,特定場(chǎng)景下的新詞、新用法會(huì)層出不窮的出現(xiàn)。比如“深度學(xué)習(xí)”原來不是一個(gè)詞,但近幾年被廣泛使用,特指一類神經(jīng)網(wǎng)絡(luò)算法。這一類的特征表示,可以采用機(jī)器學(xué)習(xí)算法(包括深度學(xué)習(xí)),從真實(shí)語料中自動(dòng)學(xué)習(xí),對(duì)基礎(chǔ)語言特征進(jìn)行擴(kuò)充和泛化。利用機(jī)器學(xué)習(xí)算法,也可以進(jìn)行同義詞的泛化,比如“查看、查查、查一查、查詢一下、查尋一下”等是“查詢”的同義詞。同時(shí),也可以開展詞語關(guān)聯(lián)的泛化,比如“馬云-阿里巴巴”的關(guān)系和“馬化騰-騰訊”的關(guān)系類似等。
機(jī)器學(xué)習(xí)得到的新詞、新用法,可以通過相似度計(jì)算等算法,將學(xué)習(xí)結(jié)果與基礎(chǔ)語言特征對(duì)齊,以獲得新詞對(duì)應(yīng)的語言屬性。比如“深度學(xué)習(xí)”是一個(gè)名詞,是“算法”的下位,與“神經(jīng)網(wǎng)絡(luò)”同義等。對(duì)齊操作保證了泛化特征的一致性。
語言和算法的有效結(jié)合是關(guān)鍵
根據(jù)每一類語言結(jié)構(gòu)的特點(diǎn),有指導(dǎo)的選擇算法。比如,對(duì)于漢語的流水句的處理,哪些語言特征是流水句的激活特征,流水句是否適合LSTM算法,哪些特征參與LSTM的運(yùn)算等。而不是針對(duì)所有句法結(jié)構(gòu),采用一種LSTM模型來進(jìn)行句法分析。
語言結(jié)構(gòu)因?yàn)槠鋭?dòng)態(tài)性,不適合把結(jié)構(gòu)本身作為機(jī)器學(xué)習(xí)的輸入,而應(yīng)該在輸入側(cè),通過語料標(biāo)注或規(guī)則設(shè)計(jì),把結(jié)構(gòu)進(jìn)一步抽象成為一個(gè)更抽象的特征,輸入給機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法。如在形容詞謂語句的分析中,“形容詞短語”作為一個(gè)抽象特征,輸入給句子分析算法,而不用關(guān)心“形容詞短語”是用什么算法得到的。相反,機(jī)器學(xué)習(xí)算法的輸出,必須以語言特征或語言結(jié)構(gòu)的形式,這樣才能保證結(jié)果的可解釋性。
我們認(rèn)為,深度學(xué)習(xí)只是NLP算法庫中的一部分,也許只在某一個(gè)具體的環(huán)節(jié)中效果最好,對(duì)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法的“有的放矢”的使用,是NLP工程化的關(guān)鍵。
應(yīng)用場(chǎng)景是無法回避的約束條件
應(yīng)用場(chǎng)景是NLP應(yīng)用的需求和使用環(huán)境,不同的應(yīng)用場(chǎng)景,其約束條件是不同的。有的場(chǎng)景是處理營銷數(shù)據(jù)的,有的是處理客服數(shù)據(jù)的;有的場(chǎng)景可以提供大量的標(biāo)注數(shù)據(jù),有的只能提供有限的業(yè)務(wù)規(guī)則;有的場(chǎng)景是同步的,有的是異步的。NLP應(yīng)用必須在滿足場(chǎng)景約束的前提下,選擇處理流程、計(jì)算算法、語料資源等內(nèi)容的配置。比如,對(duì)同樣一批數(shù)據(jù),同樣一個(gè)文本,營銷場(chǎng)景和客服場(chǎng)景的輸出要求完全不同,所用算法也可完全不同,客服場(chǎng)景可以用分類算法,但營銷場(chǎng)景也許需要用抽取算法。
很多NLP應(yīng)用場(chǎng)景下,客戶都希望在很短的時(shí)間內(nèi)、在沒有訓(xùn)練語料的情況下,快速看到NLP應(yīng)用的效果,實(shí)現(xiàn)“冷啟動(dòng)”。比如某電信企業(yè),客服的動(dòng)單分類有 2000 多項(xiàng)。電信自己整理了3個(gè)多月,每一個(gè)分類下的數(shù)據(jù)都很少,但電信也不可能在每一個(gè)細(xì)分小類,都幫助我們訓(xùn)練出那么大量的數(shù)據(jù),提供給機(jī)器學(xué)習(xí)算法訓(xùn)練。
“冷啟動(dòng)”的關(guān)鍵是規(guī)則方法與機(jī)器學(xué)習(xí)方法的有效融合。第一步,采用規(guī)則方法,構(gòu)建一批應(yīng)用規(guī)則,對(duì)應(yīng)用場(chǎng)景下的典型語料,進(jìn)行規(guī)則分析,針對(duì)性的獲取特征,并對(duì)典型語料進(jìn)行標(biāo)注。第二步,把典型語料的標(biāo)注數(shù)據(jù),作為機(jī)器學(xué)習(xí)算法的樣本,利用各種機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法去做擴(kuò)充、泛化。對(duì)泛化的結(jié)果,采用抽樣方法,進(jìn)行人工校驗(yàn),加入到典型語料中去。這樣循環(huán)處理,形成一個(gè)良性循環(huán),不斷的逼近客戶要求。
NLP工程化的目標(biāo)
NLP系統(tǒng)的開發(fā)與應(yīng)用,既需要尊重語言學(xué)知識(shí),以語言學(xué)知識(shí)為指導(dǎo),又需要充分利用機(jī)器學(xué)習(xí)(深度學(xué)習(xí))技術(shù)的計(jì)算優(yōu)勢(shì),以機(jī)器學(xué)習(xí)為工具,持續(xù)迭代發(fā)展,才能在工程應(yīng)用中發(fā)揮NLP的能力,實(shí)現(xiàn)滿意解。
NLP工程化期望達(dá)到以下目標(biāo):
(1)可解釋性,NLP系統(tǒng)輸出的結(jié)果,應(yīng)該符合基本的語言學(xué)規(guī)律,可以用語言學(xué)的術(shù)語進(jìn)行解釋,而不是給出一堆雜亂無章的數(shù)據(jù),讓用戶從沙海淘金。
(2)一致性,NLP系統(tǒng)的處理過程,應(yīng)該是隨著處理對(duì)象的層次和深度,而逐步疊加模塊,下級(jí)模塊使用上級(jí)模塊的結(jié)果,方便進(jìn)行優(yōu)化。而不是針對(duì)每個(gè)任務(wù),采用“一竿子插到底”的復(fù)雜算法,中間過程完全是黑盒子。
(3)即用性,NLP系統(tǒng)的應(yīng)用,需要做到即插即用的“冷啟動(dòng)”,或者是在很小的數(shù)據(jù)集上進(jìn)行規(guī)則表述和預(yù)訓(xùn)練。一切需要用戶標(biāo)注海量數(shù)據(jù),才能啟動(dòng)的NLP系統(tǒng),都是耍流氓。
(4)可遷移性,NLP系統(tǒng),應(yīng)該在不用大的改動(dòng)前提下,即可遷移到類似場(chǎng)景。而不應(yīng)該是千人千面,過分個(gè)性化。
(5)自知之明,NLP系統(tǒng)的終極目標(biāo)是做到自知之明,系統(tǒng)對(duì)輸出的結(jié)果應(yīng)該有明確的置信度,哪些結(jié)果一定保證是對(duì)的,哪些一定是不對(duì)的,哪些是不確定,需要人工干預(yù)的。有了可靠的自知之明的能力,NLP系統(tǒng)才具備了達(dá)到人類理解水平的基本條件。
近兩年很多媒體報(bào)道,計(jì)算機(jī)在閱讀理解、機(jī)器翻譯等領(lǐng)域超過了人類水平,其實(shí)是媒體的一種夸大其辭的誤導(dǎo),計(jì)算機(jī)只是做了端到端的匹配,匹配結(jié)果與標(biāo)準(zhǔn)答案做了個(gè)百分比的統(tǒng)計(jì)。計(jì)算機(jī)對(duì)閱讀理解的內(nèi)容一無所知,對(duì)匹配結(jié)果的對(duì)錯(cuò)毫無概念,從自知之明的角度衡量的話,計(jì)算機(jī)的水平可能還達(dá)不到小學(xué)一年級(jí)學(xué)生的水平。
語言理解是人工智能皇冠上的明珠,要達(dá)到真正的理解能力,道阻且長;正確處理好語言、計(jì)算、場(chǎng)景的融合,NLP技術(shù)已經(jīng)可以在非結(jié)構(gòu)化轉(zhuǎn)結(jié)構(gòu)化等應(yīng)用方向上大展宏圖,取得巨大的商業(yè)價(jià)值。
自知之明的NLP終極目標(biāo),任重道遠(yuǎn),我們將與您一路同行。(作者:晉耀紅)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡(jiǎn)單
- 10 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用