訂閱
糾錯(cuò)
加入自媒體

人工智能中工程化的NLP如何確保落地?

NLP的工程化,不是一個(gè)個(gè)算法的累積,也不是一個(gè)個(gè)任務(wù)的獨(dú)立優(yōu)化,而應(yīng)該是系統(tǒng)工程,綜合考慮語(yǔ)言、計(jì)算、場(chǎng)景等多種因素,不斷演進(jìn)融合,尋求效果滿意解的過(guò)程。根據(jù)赫伯特.西蒙(圖靈獎(jiǎng)和諾貝爾獎(jiǎng)雙料得主)的有限理性模型,受到所處環(huán)境的高度復(fù)雜性和有限的信息加工能力限制,因此NLP應(yīng)用落地時(shí),我們不可能遵循”最優(yōu)化“的策略,而應(yīng)該以獲取當(dāng)前可接受的“滿意解"為目標(biāo)。"最優(yōu)解"可以作為實(shí)驗(yàn)室環(huán)境下的研究目標(biāo),而”滿意解“是工程化的條件下我們唯一的選擇。

我們提出了“語(yǔ)言、計(jì)算、場(chǎng)景”三角形滿意解的NLP工程化技術(shù)路線,希望從工程化的角度,綜合語(yǔ)義的符號(hào)化表示、傳統(tǒng)語(yǔ)言學(xué)的知識(shí)表示、深度學(xué)習(xí)的算法模型等多種技術(shù),在具體場(chǎng)景需求的約束下,尋找NLP工程應(yīng)用的滿意解。

最小化的語(yǔ)言特征是基礎(chǔ)的語(yǔ)言資源

基礎(chǔ)的語(yǔ)言特征是有限的,否則,語(yǔ)言將呈不穩(wěn)定態(tài),人們之間互相理解語(yǔ)言也將不可能;A(chǔ)語(yǔ)言特征,包括詞庫(kù)、詞匯的句法語(yǔ)義屬性、詞匯之間的關(guān)聯(lián)性(同義、反義、上下位)等。比如,“打敗”是一個(gè)動(dòng)詞,“高興”是動(dòng)物的一種情緒,“勝利”和“失敗”的反義關(guān)系,“勝利”和“打敗”的同義關(guān)系等。這些詞語(yǔ)的意思和它們之間的關(guān)系,無(wú)論在那個(gè)行業(yè)場(chǎng)景中都是基本不變的。

我們已經(jīng)構(gòu)建了中文、英文的基礎(chǔ)語(yǔ)言特征集,其中包括80000多個(gè)常用詞匯,覆蓋了大部分常用詞匯。據(jù)統(tǒng)計(jì)中文常用的5萬(wàn)個(gè)詞可以覆蓋人民日?qǐng)?bào)新聞?dòng)迷~的99%;A(chǔ)的語(yǔ)言特征集是分類的,比如針對(duì)情感計(jì)算的基礎(chǔ)語(yǔ)言特征中包含了140多種情緒。

基礎(chǔ)的語(yǔ)言特征集,必須通過(guò)人工方式構(gòu)建。我們有30多人的語(yǔ)言學(xué)團(tuán)隊(duì),經(jīng)過(guò)長(zhǎng)達(dá)10年的積累,已初步構(gòu)建完善。

語(yǔ)言特征的泛化是必需的計(jì)算技術(shù)

語(yǔ)言的使用是動(dòng)態(tài)的,特定場(chǎng)景下的新詞、新用法會(huì)層出不窮的出現(xiàn)。比如“深度學(xué)習(xí)”原來(lái)不是一個(gè)詞,但近幾年被廣泛使用,特指一類神經(jīng)網(wǎng)絡(luò)算法。這一類的特征表示,可以采用機(jī)器學(xué)習(xí)算法(包括深度學(xué)習(xí)),從真實(shí)語(yǔ)料中自動(dòng)學(xué)習(xí),對(duì)基礎(chǔ)語(yǔ)言特征進(jìn)行擴(kuò)充和泛化。利用機(jī)器學(xué)習(xí)算法,也可以進(jìn)行同義詞的泛化,比如“查看、查查、查一查、查詢一下、查尋一下”等是“查詢”的同義詞。同時(shí),也可以開(kāi)展詞語(yǔ)關(guān)聯(lián)的泛化,比如“馬云-阿里巴巴”的關(guān)系和“馬化騰-騰訊”的關(guān)系類似等。

機(jī)器學(xué)習(xí)得到的新詞、新用法,可以通過(guò)相似度計(jì)算等算法,將學(xué)習(xí)結(jié)果與基礎(chǔ)語(yǔ)言特征對(duì)齊,以獲得新詞對(duì)應(yīng)的語(yǔ)言屬性。比如“深度學(xué)習(xí)”是一個(gè)名詞,是“算法”的下位,與“神經(jīng)網(wǎng)絡(luò)”同義等。對(duì)齊操作保證了泛化特征的一致性。

語(yǔ)言和算法的有效結(jié)合是關(guān)鍵

根據(jù)每一類語(yǔ)言結(jié)構(gòu)的特點(diǎn),有指導(dǎo)的選擇算法。比如,對(duì)于漢語(yǔ)的流水句的處理,哪些語(yǔ)言特征是流水句的激活特征,流水句是否適合LSTM算法,哪些特征參與LSTM的運(yùn)算等。而不是針對(duì)所有句法結(jié)構(gòu),采用一種LSTM模型來(lái)進(jìn)行句法分析。

語(yǔ)言結(jié)構(gòu)因?yàn)槠鋭?dòng)態(tài)性,不適合把結(jié)構(gòu)本身作為機(jī)器學(xué)習(xí)的輸入,而應(yīng)該在輸入側(cè),通過(guò)語(yǔ)料標(biāo)注或規(guī)則設(shè)計(jì),把結(jié)構(gòu)進(jìn)一步抽象成為一個(gè)更抽象的特征,輸入給機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法。如在形容詞謂語(yǔ)句的分析中,“形容詞短語(yǔ)”作為一個(gè)抽象特征,輸入給句子分析算法,而不用關(guān)心“形容詞短語(yǔ)”是用什么算法得到的。相反,機(jī)器學(xué)習(xí)算法的輸出,必須以語(yǔ)言特征或語(yǔ)言結(jié)構(gòu)的形式,這樣才能保證結(jié)果的可解釋性。

我們認(rèn)為,深度學(xué)習(xí)只是NLP算法庫(kù)中的一部分,也許只在某一個(gè)具體的環(huán)節(jié)中效果最好,對(duì)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法的“有的放矢”的使用,是NLP工程化的關(guān)鍵。

應(yīng)用場(chǎng)景是無(wú)法回避的約束條件

應(yīng)用場(chǎng)景是NLP應(yīng)用的需求和使用環(huán)境,不同的應(yīng)用場(chǎng)景,其約束條件是不同的。有的場(chǎng)景是處理營(yíng)銷數(shù)據(jù)的,有的是處理客服數(shù)據(jù)的;有的場(chǎng)景可以提供大量的標(biāo)注數(shù)據(jù),有的只能提供有限的業(yè)務(wù)規(guī)則;有的場(chǎng)景是同步的,有的是異步的。NLP應(yīng)用必須在滿足場(chǎng)景約束的前提下,選擇處理流程、計(jì)算算法、語(yǔ)料資源等內(nèi)容的配置。比如,對(duì)同樣一批數(shù)據(jù),同樣一個(gè)文本,營(yíng)銷場(chǎng)景和客服場(chǎng)景的輸出要求完全不同,所用算法也可完全不同,客服場(chǎng)景可以用分類算法,但營(yíng)銷場(chǎng)景也許需要用抽取算法。

很多NLP應(yīng)用場(chǎng)景下,客戶都希望在很短的時(shí)間內(nèi)、在沒(méi)有訓(xùn)練語(yǔ)料的情況下,快速看到NLP應(yīng)用的效果,實(shí)現(xiàn)“冷啟動(dòng)”。比如某電信企業(yè),客服的動(dòng)單分類有 2000 多項(xiàng)。電信自己整理了3個(gè)多月,每一個(gè)分類下的數(shù)據(jù)都很少,但電信也不可能在每一個(gè)細(xì)分小類,都幫助我們訓(xùn)練出那么大量的數(shù)據(jù),提供給機(jī)器學(xué)習(xí)算法訓(xùn)練。

“冷啟動(dòng)”的關(guān)鍵是規(guī)則方法與機(jī)器學(xué)習(xí)方法的有效融合。第一步,采用規(guī)則方法,構(gòu)建一批應(yīng)用規(guī)則,對(duì)應(yīng)用場(chǎng)景下的典型語(yǔ)料,進(jìn)行規(guī)則分析,針對(duì)性的獲取特征,并對(duì)典型語(yǔ)料進(jìn)行標(biāo)注。第二步,把典型語(yǔ)料的標(biāo)注數(shù)據(jù),作為機(jī)器學(xué)習(xí)算法的樣本,利用各種機(jī)器學(xué)習(xí)(深度學(xué)習(xí))算法去做擴(kuò)充、泛化。對(duì)泛化的結(jié)果,采用抽樣方法,進(jìn)行人工校驗(yàn),加入到典型語(yǔ)料中去。這樣循環(huán)處理,形成一個(gè)良性循環(huán),不斷的逼近客戶要求。

NLP工程化的目標(biāo)

NLP系統(tǒng)的開(kāi)發(fā)與應(yīng)用,既需要尊重語(yǔ)言學(xué)知識(shí),以語(yǔ)言學(xué)知識(shí)為指導(dǎo),又需要充分利用機(jī)器學(xué)習(xí)(深度學(xué)習(xí))技術(shù)的計(jì)算優(yōu)勢(shì),以機(jī)器學(xué)習(xí)為工具,持續(xù)迭代發(fā)展,才能在工程應(yīng)用中發(fā)揮NLP的能力,實(shí)現(xiàn)滿意解。

NLP工程化期望達(dá)到以下目標(biāo):

(1)可解釋性,NLP系統(tǒng)輸出的結(jié)果,應(yīng)該符合基本的語(yǔ)言學(xué)規(guī)律,可以用語(yǔ)言學(xué)的術(shù)語(yǔ)進(jìn)行解釋,而不是給出一堆雜亂無(wú)章的數(shù)據(jù),讓用戶從沙海淘金。

(2)一致性,NLP系統(tǒng)的處理過(guò)程,應(yīng)該是隨著處理對(duì)象的層次和深度,而逐步疊加模塊,下級(jí)模塊使用上級(jí)模塊的結(jié)果,方便進(jìn)行優(yōu)化。而不是針對(duì)每個(gè)任務(wù),采用“一竿子插到底”的復(fù)雜算法,中間過(guò)程完全是黑盒子。

(3)即用性,NLP系統(tǒng)的應(yīng)用,需要做到即插即用的“冷啟動(dòng)”,或者是在很小的數(shù)據(jù)集上進(jìn)行規(guī)則表述和預(yù)訓(xùn)練。一切需要用戶標(biāo)注海量數(shù)據(jù),才能啟動(dòng)的NLP系統(tǒng),都是耍流氓。

(4)可遷移性,NLP系統(tǒng),應(yīng)該在不用大的改動(dòng)前提下,即可遷移到類似場(chǎng)景。而不應(yīng)該是千人千面,過(guò)分個(gè)性化。

(5)自知之明,NLP系統(tǒng)的終極目標(biāo)是做到自知之明,系統(tǒng)對(duì)輸出的結(jié)果應(yīng)該有明確的置信度,哪些結(jié)果一定保證是對(duì)的,哪些一定是不對(duì)的,哪些是不確定,需要人工干預(yù)的。有了可靠的自知之明的能力,NLP系統(tǒng)才具備了達(dá)到人類理解水平的基本條件。

近兩年很多媒體報(bào)道,計(jì)算機(jī)在閱讀理解、機(jī)器翻譯等領(lǐng)域超過(guò)了人類水平,其實(shí)是媒體的一種夸大其辭的誤導(dǎo),計(jì)算機(jī)只是做了端到端的匹配,匹配結(jié)果與標(biāo)準(zhǔn)答案做了個(gè)百分比的統(tǒng)計(jì)。計(jì)算機(jī)對(duì)閱讀理解的內(nèi)容一無(wú)所知,對(duì)匹配結(jié)果的對(duì)錯(cuò)毫無(wú)概念,從自知之明的角度衡量的話,計(jì)算機(jī)的水平可能還達(dá)不到小學(xué)一年級(jí)學(xué)生的水平。

語(yǔ)言理解是人工智能皇冠上的明珠,要達(dá)到真正的理解能力,道阻且長(zhǎng);正確處理好語(yǔ)言、計(jì)算、場(chǎng)景的融合,NLP技術(shù)已經(jīng)可以在非結(jié)構(gòu)化轉(zhuǎn)結(jié)構(gòu)化等應(yīng)用方向上大展宏圖,取得巨大的商業(yè)價(jià)值。

自知之明的NLP終極目標(biāo),任重道遠(yuǎn),我們將與您一路同行。(作者:晉耀紅)

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)