久久久久亚洲av专区一区,免费无码AV色情在线,久久嫩草精品久久久久精品

<form id="o0mdf"><strike id="o0mdf"></strike></form>

<ul id="o0mdf"></ul>

<ul id="o0mdf"><font id="o0mdf"></font></ul>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

人工智能中工程化的NLP如何確保落地？

2019-02-21 09:39

來源：億歐網(wǎng)

NLP的工程化，不是一個(gè)個(gè)算法的累積，也不是一個(gè)個(gè)任務(wù)的獨(dú)立優(yōu)化，而應(yīng)該是系統(tǒng)工程，綜合考慮語言、計(jì)算、場景等多種因素，不斷演進(jìn)融合，尋求效果滿意解的過程。根據(jù)赫伯特．西蒙（圖靈獎(jiǎng)和諾貝爾獎(jiǎng)雙料得主）的有限理性模型，受到所處環(huán)境的高度復(fù)雜性和有限的信息加工能力限制，因此NLP應(yīng)用落地時(shí)，我們不可能遵循”最優(yōu)化“的策略，而應(yīng)該以獲取當(dāng)前可接受的“滿意解＂為目標(biāo)。＂最優(yōu)解＂可以作為實(shí)驗(yàn)室環(huán)境下的研究目標(biāo)，而”滿意解“是工程化的條件下我們唯一的選擇。

我們提出了“語言、計(jì)算、場景”三角形滿意解的NLP工程化技術(shù)路線，希望從工程化的角度，綜合語義的符號(hào)化表示、傳統(tǒng)語言學(xué)的知識(shí)表示、深度學(xué)習(xí)的算法模型等多種技術(shù)，在具體場景需求的約束下，尋找NLP工程應(yīng)用的滿意解。

最小化的語言特征是基礎(chǔ)的語言資源

基礎(chǔ)的語言特征是有限的，否則，語言將呈不穩(wěn)定態(tài)，人們之間互相理解語言也將不可能�；A(chǔ)語言特征，包括詞庫、詞匯的句法語義屬性、詞匯之間的關(guān)聯(lián)性（同義、反義、上下位）等。比如，“打敗”是一個(gè)動(dòng)詞，“高興”是動(dòng)物的一種情緒，“勝利”和“失敗”的反義關(guān)系，“勝利”和“打敗”的同義關(guān)系等。這些詞語的意思和它們之間的關(guān)系，無論在那個(gè)行業(yè)場景中都是基本不變的。

我們已經(jīng)構(gòu)建了中文、英文的基礎(chǔ)語言特征集，其中包括80000多個(gè)常用詞匯，覆蓋了大部分常用詞匯。據(jù)統(tǒng)計(jì)中文常用的5萬個(gè)詞可以覆蓋人民日?qǐng)?bào)新聞?dòng)迷~的99％。基礎(chǔ)的語言特征集是分類的，比如針對(duì)情感計(jì)算的基礎(chǔ)語言特征中包含了140多種情緒。

基礎(chǔ)的語言特征集，必須通過人工方式構(gòu)建。我們有30多人的語言學(xué)團(tuán)隊(duì)，經(jīng)過長達(dá)10年的積累，已初步構(gòu)建完善。

語言特征的泛化是必需的計(jì)算技術(shù)

語言的使用是動(dòng)態(tài)的，特定場景下的新詞、新用法會(huì)層出不窮的出現(xiàn)。比如“深度學(xué)習(xí)”原來不是一個(gè)詞，但近幾年被廣泛使用，特指一類神經(jīng)網(wǎng)絡(luò)算法。這一類的特征表示，可以采用機(jī)器學(xué)習(xí)算法（包括深度學(xué)習(xí)），從真實(shí)語料中自動(dòng)學(xué)習(xí)，對(duì)基礎(chǔ)語言特征進(jìn)行擴(kuò)充和泛化。利用機(jī)器學(xué)習(xí)算法，也可以進(jìn)行同義詞的泛化，比如“查看、查查、查一查、查詢一下、查尋一下”等是“查詢”的同義詞。同時(shí)，也可以開展詞語關(guān)聯(lián)的泛化，比如“馬云－阿里巴巴”的關(guān)系和“馬化騰－騰訊”的關(guān)系類似等。

機(jī)器學(xué)習(xí)得到的新詞、新用法，可以通過相似度計(jì)算等算法，將學(xué)習(xí)結(jié)果與基礎(chǔ)語言特征對(duì)齊，以獲得新詞對(duì)應(yīng)的語言屬性。比如“深度學(xué)習(xí)”是一個(gè)名詞，是“算法”的下位，與“神經(jīng)網(wǎng)絡(luò)”同義等。對(duì)齊操作保證了泛化特征的一致性。

語言和算法的有效結(jié)合是關(guān)鍵

根據(jù)每一類語言結(jié)構(gòu)的特點(diǎn)，有指導(dǎo)的選擇算法。比如，對(duì)于漢語的流水句的處理，哪些語言特征是流水句的激活特征，流水句是否適合LSTM算法，哪些特征參與LSTM的運(yùn)算等。而不是針對(duì)所有句法結(jié)構(gòu)，采用一種LSTM模型來進(jìn)行句法分析。

語言結(jié)構(gòu)因?yàn)槠鋭?dòng)態(tài)性，不適合把結(jié)構(gòu)本身作為機(jī)器學(xué)習(xí)的輸入，而應(yīng)該在輸入側(cè)，通過語料標(biāo)注或規(guī)則設(shè)計(jì)，把結(jié)構(gòu)進(jìn)一步抽象成為一個(gè)更抽象的特征，輸入給機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法。如在形容詞謂語句的分析中，“形容詞短語”作為一個(gè)抽象特征，輸入給句子分析算法，而不用關(guān)心“形容詞短語”是用什么算法得到的。相反，機(jī)器學(xué)習(xí)算法的輸出，必須以語言特征或語言結(jié)構(gòu)的形式，這樣才能保證結(jié)果的可解釋性。

我們認(rèn)為，深度學(xué)習(xí)只是NLP算法庫中的一部分，也許只在某一個(gè)具體的環(huán)節(jié)中效果最好，對(duì)機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）算法的“有的放矢”的使用，是NLP工程化的關(guān)鍵。

應(yīng)用場景是無法回避的約束條件

應(yīng)用場景是NLP應(yīng)用的需求和使用環(huán)境，不同的應(yīng)用場景，其約束條件是不同的。有的場景是處理營銷數(shù)據(jù)的，有的是處理客服數(shù)據(jù)的；有的場景可以提供大量的標(biāo)注數(shù)據(jù)，有的只能提供有限的業(yè)務(wù)規(guī)則；有的場景是同步的，有的是異步的。NLP應(yīng)用必須在滿足場景約束的前提下，選擇處理流程、計(jì)算算法、語料資源等內(nèi)容的配置。比如，對(duì)同樣一批數(shù)據(jù)，同樣一個(gè)文本，營銷場景和客服場景的輸出要求完全不同，所用算法也可完全不同，客服場景可以用分類算法，但營銷場景也許需要用抽取算法。

很多NLP應(yīng)用場景下，客戶都希望在很短的時(shí)間內(nèi)、在沒有訓(xùn)練語料的情況下，快速看到NLP應(yīng)用的效果，實(shí)現(xiàn)“冷啟動(dòng)”。比如某電信企業(yè)，客服的動(dòng)單分類有 2000 多項(xiàng)。電信自己整理了3個(gè)多月，每一個(gè)分類下的數(shù)據(jù)都很少，但電信也不可能在每一個(gè)細(xì)分小類，都幫助我們訓(xùn)練出那么大量的數(shù)據(jù)，提供給機(jī)器學(xué)習(xí)算法訓(xùn)練。

“冷啟動(dòng)”的關(guān)鍵是規(guī)則方法與機(jī)器學(xué)習(xí)方法的有效融合。第一步，采用規(guī)則方法，構(gòu)建一批應(yīng)用規(guī)則，對(duì)應(yīng)用場景下的典型語料，進(jìn)行規(guī)則分析，針對(duì)性的獲取特征，并對(duì)典型語料進(jìn)行標(biāo)注。第二步，把典型語料的標(biāo)注數(shù)據(jù)，作為機(jī)器學(xué)習(xí)算法的樣本，利用各種機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）算法去做擴(kuò)充、泛化。對(duì)泛化的結(jié)果，采用抽樣方法，進(jìn)行人工校驗(yàn)，加入到典型語料中去。這樣循環(huán)處理，形成一個(gè)良性循環(huán)，不斷的逼近客戶要求。

NLP工程化的目標(biāo)

NLP系統(tǒng)的開發(fā)與應(yīng)用，既需要尊重語言學(xué)知識(shí)，以語言學(xué)知識(shí)為指導(dǎo)，又需要充分利用機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）技術(shù)的計(jì)算優(yōu)勢(shì)，以機(jī)器學(xué)習(xí)為工具，持續(xù)迭代發(fā)展，才能在工程應(yīng)用中發(fā)揮NLP的能力，實(shí)現(xiàn)滿意解。

NLP工程化期望達(dá)到以下目標(biāo)：

（1）可解釋性，NLP系統(tǒng)輸出的結(jié)果，應(yīng)該符合基本的語言學(xué)規(guī)律，可以用語言學(xué)的術(shù)語進(jìn)行解釋，而不是給出一堆雜亂無章的數(shù)據(jù)，讓用戶從沙海淘金。

（2）一致性，NLP系統(tǒng)的處理過程，應(yīng)該是隨著處理對(duì)象的層次和深度，而逐步疊加模塊，下級(jí)模塊使用上級(jí)模塊的結(jié)果，方便進(jìn)行優(yōu)化。而不是針對(duì)每個(gè)任務(wù)，采用“一竿子插到底”的復(fù)雜算法，中間過程完全是黑盒子。

（3）即用性，NLP系統(tǒng)的應(yīng)用，需要做到即插即用的“冷啟動(dòng)”，或者是在很小的數(shù)據(jù)集上進(jìn)行規(guī)則表述和預(yù)訓(xùn)練。一切需要用戶標(biāo)注海量數(shù)據(jù)，才能啟動(dòng)的NLP系統(tǒng)，都是耍流氓。

（4）可遷移性，NLP系統(tǒng)，應(yīng)該在不用大的改動(dòng)前提下，即可遷移到類似場景。而不應(yīng)該是千人千面，過分個(gè)性化。

（5）自知之明，NLP系統(tǒng)的終極目標(biāo)是做到自知之明，系統(tǒng)對(duì)輸出的結(jié)果應(yīng)該有明確的置信度，哪些結(jié)果一定保證是對(duì)的，哪些一定是不對(duì)的，哪些是不確定，需要人工干預(yù)的。有了可靠的自知之明的能力，NLP系統(tǒng)才具備了達(dá)到人類理解水平的基本條件。

近兩年很多媒體報(bào)道，計(jì)算機(jī)在閱讀理解、機(jī)器翻譯等領(lǐng)域超過了人類水平，其實(shí)是媒體的一種夸大其辭的誤導(dǎo)，計(jì)算機(jī)只是做了端到端的匹配，匹配結(jié)果與標(biāo)準(zhǔn)答案做了個(gè)百分比的統(tǒng)計(jì)。計(jì)算機(jī)對(duì)閱讀理解的內(nèi)容一無所知，對(duì)匹配結(jié)果的對(duì)錯(cuò)毫無概念，從自知之明的角度衡量的話，計(jì)算機(jī)的水平可能還達(dá)不到小學(xué)一年級(jí)學(xué)生的水平。

語言理解是人工智能皇冠上的明珠，要達(dá)到真正的理解能力，道阻且長；正確處理好語言、計(jì)算、場景的融合，NLP技術(shù)已經(jīng)可以在非結(jié)構(gòu)化轉(zhuǎn)結(jié)構(gòu)化等應(yīng)用方向上大展宏圖，取得巨大的商業(yè)價(jià)值。

自知之明的NLP終極目標(biāo)，任重道遠(yuǎn)，我們將與您一路同行。（作者：晉耀紅）

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的，請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)