萬字詳解:騰訊如何自研大規(guī)模知識圖譜 Topbase
首先我們獲取知識圖譜中重要度高的實(shí)體名構(gòu)建 Tri 樹,然后回標(biāo)新聞數(shù)據(jù)和百科正文數(shù)據(jù),并將包含實(shí)體的句子作為候選抽取語料(新聞和百科數(shù)據(jù)需要區(qū)別對待,新聞數(shù)據(jù)往往包含最及時和最豐富的三元組信息,百科數(shù)據(jù)質(zhì)量高,包含準(zhǔn)確的知識,且百科摘要或正文描述相對簡單,抽取結(jié)果的準(zhǔn)確率高)。
然后,我們利用 Topbase 的實(shí)體鏈接服務(wù),將匹配上的實(shí)體鏈接到知識庫的已有實(shí)體中,避免了后期的數(shù)據(jù)融合。比如:實(shí)體“李娜”匹配到一句話是“歌手李娜最終歸一了佛門”,那么這句話中的李娜會對應(yīng)到知識庫中的歌手李娜,而不是網(wǎng)球李娜,從這句話中抽取的結(jié)果只會影響歌手李娜的。實(shí)體鏈接之后,我們將候選語料送入我們的抽取服務(wù),得到實(shí)體的三元組信息。
最后,三元組結(jié)果會和知識庫中已有的三元組數(shù)據(jù)進(jìn)行匹配并給每一個抽取得到的三元組結(jié)果進(jìn)行置信度打分,如果知識庫已經(jīng)存在該三元組信息則過濾,如果知識庫中三元組和抽取得到的三元組發(fā)生沖突則進(jìn)入眾包標(biāo)注平臺,如果三元組是新增的知識則根據(jù)他們的分值決定是否可以直接入庫或者送入標(biāo)注平臺。此外,標(biāo)注平臺的結(jié)果數(shù)據(jù)會加入到抽取服務(wù)中 Fine-tune 模型,不斷提升抽取模型的能力。
上述流程中的核心是抽取服務(wù)模塊,它是非結(jié)構(gòu)化抽取策略的集合。抽取服務(wù)構(gòu)建流程如圖 6 所示,其主要包括離線模型構(gòu)建部分以及在線服務(wù)部分。離線模型構(gòu)建的重點(diǎn)主要在于如何利用遠(yuǎn)監(jiān)督的方式構(gòu)建抽取模型的訓(xùn)練數(shù)據(jù)以及訓(xùn)練抽取模型。在線流程重點(diǎn)是如何針對輸入的文本進(jìn)行預(yù)處理,走不同的抽取策略,以及抽取結(jié)果的后處理。針對不同屬性信息的特點(diǎn),抽取策略主要可以簡單歸納為三大類方法:
基于規(guī)則的抽取模塊:有些屬性具有很強(qiáng)的模板(規(guī)則)性質(zhì),所以可以通過人工簡單的配置一些模板規(guī)則就可以獲得高準(zhǔn)確率的三元組結(jié)果。一般百科摘要文本內(nèi)容描述規(guī)范,適合于規(guī)則抽取的輸入數(shù)據(jù)源。此外,適用于規(guī)則抽取的屬性主要有上位詞,別名,地理位置,人物描述 tag 等。當(dāng)然,規(guī)則模塊召回有限往往還得搭配模型抽取模塊,但是規(guī)則模塊結(jié)果適合直接入庫,無需標(biāo)注人員審核。
基于 mention 識別+關(guān)系分類模塊:基本思想是先用 NER 或者詞典匹配等方式識別出句子中的 mention,然后利用已有的實(shí)體信息以及識別出來的 mention 進(jìn)行屬性分類。舉例:給定識別出 mention 的句子“<o(jì)rg>騰訊</org>公司是由<per>馬化騰</per>創(chuàng)立的!,用 schema 對輸入進(jìn)行調(diào)整,一種情況是 org 作為頭實(shí)體,per 作為尾實(shí)體,那么該樣本的分類結(jié)果是關(guān)系“創(chuàng)始人”,另一種情況是 per 作為頭實(shí)體,org 作為尾實(shí)體,那么該樣本的分類結(jié)果是“所屬公司”,所以最終可以得到三元組<騰訊,創(chuàng)始人,馬化騰>和<馬化騰,所屬公司,騰訊>。一般人物,地點(diǎn),機(jī)構(gòu),影視劇,時間等實(shí)體可以利用 qqseg-ner 識別。詞典性質(zhì)的實(shí)體如:職業(yè),名族,國籍,性別等適合于詞典匹配的方式識別。
基于序列標(biāo)注模塊:此外,還有許多屬性值是無法進(jìn)行 mention 識別,因此針對這類屬性,我們采用一種序列標(biāo)注的聯(lián)合抽取方式來同時識別實(shí)體的屬性值以及屬性。這類屬性主要有人物的“主要成就”信息,人物的描述 tag 信息,以及一些數(shù)值型屬性信息。
圖6 Topbase的非結(jié)構(gòu)化抽取服務(wù)
3. 專項(xiàng)抽取
專項(xiàng)抽取模塊主要是針對一些重要知識的抽取。目前知識圖譜設(shè)計的專項(xiàng)抽取內(nèi)容主要有:上位詞抽取(概念),實(shí)體描述抽取,事件抽取,別名抽取等。
1 ) 上位詞抽取:
上位詞可以理解為實(shí)體細(xì)粒度的概念,有助于更好的理解實(shí)體含義。圖 7 是構(gòu)建上位詞圖譜的一個簡要流程圖,其中主要從三路數(shù)據(jù)源中抽取上位詞數(shù)據(jù),主要包括:知識圖譜的屬性數(shù)據(jù),百科人工標(biāo)注 Tag,純文本語料。由于抽取得到的上位詞表述多樣性問題,所以需要在抽取后進(jìn)行同義上位詞合并。此外,抽取生成的上位詞圖譜也會存在著知識補(bǔ)全的問題,所以需要進(jìn)一步的進(jìn)行圖譜的連接預(yù)測,進(jìn)行上位詞圖譜的補(bǔ)全。
圖7 上位詞抽取流程
2) 實(shí)體描述 tag 抽。
實(shí)體描述 tag 是指能夠描述實(shí)體某個標(biāo)簽的短句,圖 7 是從新聞文本數(shù)據(jù)中挖掘到的實(shí)體“李子柒”的部分描述 tag。描述 tag 目前主要用于相關(guān)實(shí)體推薦理由生成,以及搜索場景中實(shí)體信息展示。描述 tag 抽取的核心模塊以 QA-bert 為主的序列標(biāo)注模型,query 是給定的實(shí)體信息,答案是句子中的描述片段。此外,還包括一系列的預(yù)處理過濾模塊和后處理規(guī)整過濾模塊。
圖8 描述tag的示列說明
3)事件抽。
事件抽取的目的是合并同一事件的新聞數(shù)據(jù)并從中識別出事件的關(guān)鍵信息生成事件的描述。事件抽取的基本流程如圖 8 所示。
圖9 Topbase的事件抽取流程框圖
預(yù)處理階段主要是對新聞流數(shù)據(jù)按照實(shí)體進(jìn)行分堆處理。
事件聚類階段主要是對每一堆的新聞數(shù)據(jù)進(jìn)行關(guān)鍵詞的提取等操作,將堆內(nèi)的新聞進(jìn)一步的聚類。
事件融合主要包括同批次事件融合和增量事件融合。事件抽取流程是分批次對輸入數(shù)據(jù)進(jìn)行處理。同批次事件融合主要解決不同實(shí)體屬于同一事件的情況,將前一步得到的類簇進(jìn)行合并處理。增量事件融合是將新增的新聞數(shù)據(jù)和歷史 Base 的事件庫進(jìn)行增量融合。
最后,我們需要識別每一個事件類簇中的事件元素,過濾無效事件,生成事件的描述。
六、知識規(guī)整 - 實(shí)體分類
知識規(guī)整目的是將實(shí)體數(shù)據(jù)映射到知識體系,并對其關(guān)系屬性等信息進(jìn)行去噪,歸一化等預(yù)處理。如圖 9 所示,左側(cè)是從百科頁面獲取的武則天人物信息,右側(cè)是從電影相關(guān)網(wǎng)站中獲得的武則天信息,那么左側(cè)的“武則天”應(yīng)該被視為“人物類--歷史人物--帝王”,右側(cè)“武則天”應(yīng)該被視為“作品--影視作品--電影”。左側(cè)人物的“民族”屬性的原始名稱為“民族族群”,所以需要將其規(guī)整為 schema 定義的“民族”,這稱之為屬性歸一。此外,由于不同來源的數(shù)據(jù)對實(shí)體名稱會有不同的注釋,如豆瓣的“武則天”這部電影后面加了一個年份備注,所以我們還需要對實(shí)體名進(jìn)行還原處理等各種清洗處理。知識規(guī)整的核心模塊是如何將實(shí)體映射到知識體系,即實(shí)體分類。
圖10 數(shù)據(jù)規(guī)整的示列說明
1. 實(shí)體分類的挑戰(zhàn):
概念類別多(200+類),具有層次性,細(xì)分類別差異小(電影,電視。
實(shí)體屬性存在歧義:
圖11 實(shí)體分類中屬性歧義問題
實(shí)體名稱或者實(shí)體簡介信息具有迷惑性:例如實(shí)體"菅直人"是一個政治家,其名稱容易和民族類別混淆,電影“寄生蟲”簡介如下圖所示,其內(nèi)容和人物概念極其相似。
圖12 實(shí)體分類中簡介迷惑性問題
2. 實(shí)體分類方法:
實(shí)體分類本質(zhì)是一個多分類問題。針對知識庫的特點(diǎn)以及上述挑戰(zhàn),我們分別從訓(xùn)練樣本構(gòu)建,特征選擇以及模型設(shè)計三方面實(shí)現(xiàn)實(shí)體分類模塊。
1 )實(shí)體分類的訓(xùn)練樣本構(gòu)建:
圖13 實(shí)體分類訓(xùn)練數(shù)據(jù)構(gòu)建流程
屬性規(guī)則模塊:每個實(shí)體頁面包含了實(shí)體結(jié)構(gòu)化屬性信息,利用這些屬性字段可以對實(shí)體進(jìn)行一個規(guī)則的分類。如:人物類別的實(shí)體大多包含民族,出生日期,職業(yè)等字段,歌手類實(shí)體的職業(yè)字段中可能有“歌手”的屬性值。通過構(gòu)建正則式規(guī)則,可以批量對實(shí)體頁面進(jìn)行分類;谝(guī)則模塊得到的類別信息準(zhǔn)確率高,但是泛化能力弱,它的結(jié)果既可以作為后續(xù)分類模型的訓(xùn)練數(shù)據(jù) 1 也可以作為實(shí)體分類的一路重要分類結(jié)果。
圖14 Topbase中用于實(shí)體分類的屬性規(guī)則配置頁面
簡介分類模塊:簡介分類模塊以規(guī)則模塊的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),可以得到一個以簡介為實(shí)體分類依據(jù)的分類模型,然后基于該模型預(yù)測屬性規(guī)則模塊無法識別的實(shí)體,選擇高置信度的結(jié)果作為訓(xùn)練數(shù)據(jù) 2。
自動構(gòu)建的訓(xùn)練數(shù)據(jù)去噪模塊:基于規(guī)則和簡介分類模塊可以得到部分分類樣本,但是這些訓(xùn)練樣本不可避免的會引入噪聲,所以我們引入 N-折交叉訓(xùn)練預(yù)測自清洗數(shù)據(jù),進(jìn)一步保留高置信的訓(xùn)練樣本,清洗思路如下圖所示。
圖15 實(shí)體分類訓(xùn)練數(shù)據(jù)自清洗流程
運(yùn)營模塊:運(yùn)營模塊主要包括日常 badcase 收集以及標(biāo)注人員審核的預(yù)測置信度不高的樣本。運(yùn)營數(shù)據(jù)會結(jié)合自動構(gòu)建數(shù)據(jù),聯(lián)合訓(xùn)練最終的實(shí)體分類模型。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?