百度ai系列研究自然語言之語言處理基礎技術
每周一篇原創(chuàng),關注5G、物聯(lián)網(wǎng)、人工智能,跟著我的【頭號觀點】堅持利用碎片時間學習
自然語言處理是人工智能中最核心的一部分,也是現(xiàn)在最難的,最底層的技術。百度提供全面、領先的NLP基礎模塊能力,涵蓋詞、短語、句子等不同粒度的底層能力,您可將其應用于多種技術和業(yè)務方向。今天我們就對自然語言處理的分支——語言處理基礎技術進行詳細研究解讀。
詞法分析
基于大數(shù)據(jù)和用戶行為的分詞、詞性標注、命名實體識別,定位基本語言元素,消除歧義,支撐自然語言的準確理解。
功能介紹:百度詞法分析向用戶提供分詞、詞性標注、命名實體識別三大功能。該服務能夠識別出文本串中的基本詞匯(分詞),對這些詞匯進行重組、標注組合后詞匯的詞性,并進一步識別出命名實體,百度詞法分析的算法效果大幅領先已公開的主流中文詞法分析模型。
中文分詞:中文分詞是將連續(xù)的自然語言文本,切分成具有語義合理性和完整性的詞匯序列的過程
詞性標注:詞性標注(Part-of-Speech tagging 或POS tagging)是指為自然語言文本中的每個詞匯賦予一個詞性的過程
專有名詞:命名實體識別(Named Entity Recognition 簡稱NER),即"專名識別",是指識別自然語言文本中具有特定意義的實體,主要包括人名、地名、機構名、時間日期等
詞向量表示
依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡技術,通過詞語的向量化來實現(xiàn)文本的可計算,幫助您快速完成語義挖掘、相似度計算等應用
使用場景:
語義召回:對候選資源進行詞向量表示,并構建向量表示基礎上的快速索引召回技術,與傳統(tǒng)的基于字詞倒排索引方法不同,直接從語義相關性角度上給用戶召回結果
個性化推薦:
基于用戶的歷史行為建模用戶興趣表示,學習用戶與推薦候選之間的興趣匹配度,實現(xiàn)對用戶的個性化推薦
語義相似度
依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡技術,通過詞語向量化來計算兩個詞之間的相似度,滿足高精度要求的業(yè)務場景需求
深度語義解析:該技術常用于計算兩個給定詞語的語義相似度,基于自然語言中的分布假設,即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高
領先技術應用:詞義相似度是自然語言處理中的重要基礎技術,是專名挖掘、query改寫、詞性標注等常用技術的基礎之一
依存句法分析
自動分析文本中的依存句法結構信息,實現(xiàn)對自然語言的精準理解
深度語義結構:利用句子中詞與詞之間的依存關系來表示詞語的句法結構信息(如主謂、動賓、定中等結構關系) ,并用樹狀結構來表示整句的的結構(如主謂賓、定狀補)等
算法精準識別:在大規(guī)模人工標注的數(shù)據(jù)基礎上,句法結構描述體系簡潔通用,海量數(shù)據(jù)訓練讓文本匹配更準確
DNN語言模型
依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡技術,判斷一句話是否符合語言表達習慣,幫助您實現(xiàn)文本分析、糾錯、對話等多種語義應用
語言模型是通過計算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語言表達習慣
通常用于機器翻譯、拼寫糾錯、語音識別、問答系統(tǒng)、詞性標注、句法分析和信息檢索等
應用場景:
拼寫糾錯:基于句子上下文,計算糾錯候選的語言模型概率。用于拼寫糾錯,提升用戶體驗
對話系統(tǒng):判斷用戶輸入的句子是否符合自然語言表達習慣,輔助對話系統(tǒng)進行決策
機器翻譯:語言模型對翻譯候選的打分作為最終譯文的重要排序指標,提升翻譯效果
短文本相似度
依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡技術,為您提供高精度的短文本相似度服務,幫助快速實現(xiàn)推薦、檢索、排序等應用
短文本相似度計算:提供兩個短文本之間的語義相似度計算能力,輸出的相似度是一個介于0到1之間的實數(shù)值,輸出數(shù)值越大,則代表語義相似程度相對越高
短文本相似度聚合:通過語義相似度計算,判斷兩個短文本的語義表述是否相近,從而實現(xiàn)相似短文本的聚合或去重
應用場景
智能對話系統(tǒng):在智能對話系統(tǒng)中,通過中文分詞、專名識別等關鍵技術,能夠準確的從用戶輸入內(nèi)容中識別出意圖及需求的關鍵信息,從而提供相應的內(nèi)容服務
相似內(nèi)容推薦:通過短文本相似度技術,可以準確的為目標文本匹配含義接近的內(nèi)容,從而完成相似內(nèi)容推薦
搜索結果擴展:通過詞義相似度技術,可以尋找搜索query中的相似詞,并進行合理替換,從而提高搜索結果的多樣性
總結
綜上所述,自然語言處理中的——語言處理基礎技術主要是可共用的底層技術,小編附上一張圖來展示整個應用架構,在后面幾篇章中將詳細介紹并成一體系。
預告
下一篇章繼續(xù)研究學習百度的自然語言處理技術之語言處理應用技術,敬請期待!
免責聲明:
本公眾號為個人研究專題學習分享,非商業(yè)公眾號無任何商業(yè)目的,如果文章內(nèi)容有侵權或者非法信息,請立即與本號聯(lián)系刪除謝謝

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?