訂閱
糾錯
加入自媒體

AI同傳現(xiàn)場掉鏈子,人工智能的理解能力還需努力

隱馬爾可夫模型(HMM)解決統(tǒng)計數(shù)據(jù)之外的語言問題

然而,在參考騰訊AI同傳的失誤后,我們發(fā)現(xiàn),僅僅增加數(shù)據(jù)量還是不夠的,在現(xiàn)實生活中,我們也會遇到零概率或者統(tǒng)計量不足的問題。

比如一個漢語的語言模型,就足足達(dá)到20萬這個量級。曾有人做過這樣一個假設(shè),如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù),互聯(lián)網(wǎng)中將會有100億個有意義的中文網(wǎng)頁,這還是相當(dāng)高估的一個數(shù)據(jù),每個網(wǎng)頁平均1000詞,那么,即使將互聯(lián)網(wǎng)上上所有中文內(nèi)容用作訓(xùn)練,依然只有1013。

為了解決數(shù)據(jù)量的問題,我們提出了隱馬爾可夫模型(HMM)。實際應(yīng)用中,我們可以把HMM看作一個黑箱子,這個黑箱子可以利用比較簡潔的數(shù)據(jù),處理后得出:

1.每個時刻對應(yīng)的狀態(tài)序列;

2.混合分布的均值和方差矩陣;

3.混合分布的權(quán)重矩陣;

4.狀態(tài)間轉(zhuǎn)移概率矩陣。

看起來可能比較復(fù)雜,簡單點說,這個模型可以通過可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個數(shù)據(jù)域外的狀態(tài),即隱含狀態(tài)。也就是說,我們可以憑借一句話,來探索出這句話后的隱含的意思,從而解決一些微妙的語義問題。

如上圖所示,這個模型能夠通過你提供的可以明顯觀察的句子,推斷出一個人隱含的心情狀態(tài)(開心OR難過),并得到最后的行為判斷(宅、購物、社交),即通過已知推斷出未知。

而如何優(yōu)化這個模型,得到最優(yōu)隱含狀態(tài)?人們提出了許多解決問題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認(rèn)的是,在深度學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)+模型就能很好地打造出一款A(yù)I同傳翻譯,數(shù)據(jù)越大,神經(jīng)網(wǎng)絡(luò)更好。即使翻譯結(jié)果不盡如人意,但只要建設(shè)足夠大的數(shù)據(jù)庫,建立更好的模型,打磨算法,AI同傳很快就會有更大的提升。

NLP金字塔頂端反哺底端:打造高質(zhì)量AI同傳

除了增加數(shù)據(jù)庫和打磨數(shù)據(jù)模型,AI同傳還可以從哪些方面提升呢?我們不妨借鑒一下其它的技術(shù)。下圖中,這四個方面代表了人們在NLP領(lǐng)域的一些進(jìn)步。用金字塔形來表示這四個技術(shù)之間的關(guān)系,難度是逐級上升的。

目前,聊天機(jī)器人和閱讀理解這一塊兒已經(jīng)取得了很大的突破。而AI閱讀理解技術(shù)的進(jìn)步不止是NLP的高階進(jìn)化,還有一層意義是,科學(xué)之間是相通的,技術(shù)之間可以互相借鑒,金字塔頂端技術(shù)可以反哺底端。

自然語言處理上,人區(qū)別于AI的點在于人有先驗知識。即人們在聽到某個字時,會自然地聯(lián)想到后一個字,或者會被一個詞觸發(fā)了一句話的聯(lián)想。比如,我們聽到“中”,既有可能想到“國”,也可能想到“間”。但是AI“聯(lián)想”的詞卻依靠數(shù)據(jù)。它說“北”,如果輸入的數(shù)據(jù)不變,那后面跟的就是”京“。

<上一頁  1  2  3  下一頁>  
聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號