久久97久久97免视频,一级毛片免费直接看,久久精品视频网

萬(wàn)字詳解：騰訊如何自研大規(guī)模知識(shí)圖譜 Topbase

2020-06-09 10:39

首先我們獲取知識(shí)圖譜中重要度高的實(shí)體名構(gòu)建 Tri 樹(shù)，然后回標(biāo)新聞數(shù)據(jù)和百科正文數(shù)據(jù)，并將包含實(shí)體的句子作為候選抽取語(yǔ)料（新聞和百科數(shù)據(jù)需要區(qū)別對(duì)待，新聞數(shù)據(jù)往往包含最及時(shí)和最豐富的三元組信息，百科數(shù)據(jù)質(zhì)量高，包含準(zhǔn)確的知識(shí)，且百科摘要或正文描述相對(duì)簡(jiǎn)單，抽取結(jié)果的準(zhǔn)確率高）。

然后，我們利用 Topbase 的實(shí)體鏈接服務(wù)，將匹配上的實(shí)體鏈接到知識(shí)庫(kù)的已有實(shí)體中，避免了后期的數(shù)據(jù)融合。比如：實(shí)體“李娜”匹配到一句話(huà)是“歌手李娜最終歸一了佛門(mén)”，那么這句話(huà)中的李娜會(huì)對(duì)應(yīng)到知識(shí)庫(kù)中的歌手李娜，而不是網(wǎng)球李娜，從這句話(huà)中抽取的結(jié)果只會(huì)影響歌手李娜的。實(shí)體鏈接之后，我們將候選語(yǔ)料送入我們的抽取服務(wù)，得到實(shí)體的三元組信息。

最后，三元組結(jié)果會(huì)和知識(shí)庫(kù)中已有的三元組數(shù)據(jù)進(jìn)行匹配并給每一個(gè)抽取得到的三元組結(jié)果進(jìn)行置信度打分，如果知識(shí)庫(kù)已經(jīng)存在該三元組信息則過(guò)濾，如果知識(shí)庫(kù)中三元組和抽取得到的三元組發(fā)生沖突則進(jìn)入眾包標(biāo)注平臺(tái)，如果三元組是新增的知識(shí)則根據(jù)他們的分值決定是否可以直接入庫(kù)或者送入標(biāo)注平臺(tái)。此外，標(biāo)注平臺(tái)的結(jié)果數(shù)據(jù)會(huì)加入到抽取服務(wù)中 Fine－tune 模型，不斷提升抽取模型的能力。

上述流程中的核心是抽取服務(wù)模塊，它是非結(jié)構(gòu)化抽取策略的集合。抽取服務(wù)構(gòu)建流程如圖 6 所示，其主要包括離線(xiàn)模型構(gòu)建部分以及在線(xiàn)服務(wù)部分。離線(xiàn)模型構(gòu)建的重點(diǎn)主要在于如何利用遠(yuǎn)監(jiān)督的方式構(gòu)建抽取模型的訓(xùn)練數(shù)據(jù)以及訓(xùn)練抽取模型。在線(xiàn)流程重點(diǎn)是如何針對(duì)輸入的文本進(jìn)行預(yù)處理，走不同的抽取策略，以及抽取結(jié)果的后處理。針對(duì)不同屬性信息的特點(diǎn)，抽取策略主要可以簡(jiǎn)單歸納為三大類(lèi)方法：

基于規(guī)則的抽取模塊：有些屬性具有很強(qiáng)的模板（規(guī)則）性質(zhì)，所以可以通過(guò)人工簡(jiǎn)單的配置一些模板規(guī)則就可以獲得高準(zhǔn)確率的三元組結(jié)果。一般百科摘要文本內(nèi)容描述規(guī)范，適合于規(guī)則抽取的輸入數(shù)據(jù)源。此外，適用于規(guī)則抽取的屬性主要有上位詞，別名，地理位置，人物描述 tag 等。當(dāng)然，規(guī)則模塊召回有限往往還得搭配模型抽取模塊，但是規(guī)則模塊結(jié)果適合直接入庫(kù)，無(wú)需標(biāo)注人員審核。

基于 mention 識(shí)別＋關(guān)系分類(lèi)模塊：基本思想是先用 NER 或者詞典匹配等方式識(shí)別出句子中的 mention，然后利用已有的實(shí)體信息以及識(shí)別出來(lái)的 mention 進(jìn)行屬性分類(lèi)。舉例：給定識(shí)別出 mention 的句子“＜o(jì)rg＞騰訊＜／org＞公司是由＜per＞馬化騰＜／per＞創(chuàng)立的。”，用 schema 對(duì)輸入進(jìn)行調(diào)整，一種情況是 org 作為頭實(shí)體，per 作為尾實(shí)體，那么該樣本的分類(lèi)結(jié)果是關(guān)系“創(chuàng)始人”，另一種情況是 per 作為頭實(shí)體，org 作為尾實(shí)體，那么該樣本的分類(lèi)結(jié)果是“所屬公司”，所以最終可以得到三元組＜騰訊，創(chuàng)始人，馬化騰＞和＜馬化騰，所屬公司，騰訊＞。一般人物，地點(diǎn)，機(jī)構(gòu)，影視劇，時(shí)間等實(shí)體可以利用 qqseg－ner 識(shí)別。詞典性質(zhì)的實(shí)體如：職業(yè)，名族，國(guó)籍，性別等適合于詞典匹配的方式識(shí)別。

基于序列標(biāo)注模塊：此外，還有許多屬性值是無(wú)法進(jìn)行 mention 識(shí)別，因此針對(duì)這類(lèi)屬性，我們采用一種序列標(biāo)注的聯(lián)合抽取方式來(lái)同時(shí)識(shí)別實(shí)體的屬性值以及屬性。這類(lèi)屬性主要有人物的“主要成就”信息，人物的描述 tag 信息，以及一些數(shù)值型屬性信息。

圖6 Topbase的非結(jié)構(gòu)化抽取服務(wù)

3．專(zhuān)項(xiàng)抽取

專(zhuān)項(xiàng)抽取模塊主要是針對(duì)一些重要知識(shí)的抽取。目前知識(shí)圖譜設(shè)計(jì)的專(zhuān)項(xiàng)抽取內(nèi)容主要有：上位詞抽取（概念），實(shí)體描述抽取，事件抽取，別名抽取等。

1 ）上位詞抽取：

上位詞可以理解為實(shí)體細(xì)粒度的概念，有助于更好的理解實(shí)體含義。圖 7 是構(gòu)建上位詞圖譜的一個(gè)簡(jiǎn)要流程圖，其中主要從三路數(shù)據(jù)源中抽取上位詞數(shù)據(jù)，主要包括：知識(shí)圖譜的屬性數(shù)據(jù)，百科人工標(biāo)注 Tag，純文本語(yǔ)料。由于抽取得到的上位詞表述多樣性問(wèn)題，所以需要在抽取后進(jìn)行同義上位詞合并。此外，抽取生成的上位詞圖譜也會(huì)存在著知識(shí)補(bǔ)全的問(wèn)題，所以需要進(jìn)一步的進(jìn)行圖譜的連接預(yù)測(cè)，進(jìn)行上位詞圖譜的補(bǔ)全。

圖7 上位詞抽取流程

2）實(shí)體描述 tag 抽取：

實(shí)體描述 tag 是指能夠描述實(shí)體某個(gè)標(biāo)簽的短句，圖 7 是從新聞文本數(shù)據(jù)中挖掘到的實(shí)體“李子柒”的部分描述 tag。描述 tag 目前主要用于相關(guān)實(shí)體推薦理由生成，以及搜索場(chǎng)景中實(shí)體信息展示。描述 tag 抽取的核心模塊以 QA－bert 為主的序列標(biāo)注模型，query 是給定的實(shí)體信息，答案是句子中的描述片段。此外，還包括一系列的預(yù)處理過(guò)濾模塊和后處理規(guī)整過(guò)濾模塊。

圖8 描述tag的示列說(shuō)明

3）事件抽�。�

事件抽取的目的是合并同一事件的新聞數(shù)據(jù)并從中識(shí)別出事件的關(guān)鍵信息生成事件的描述。事件抽取的基本流程如圖 8 所示。

圖9 Topbase的事件抽取流程框圖

預(yù)處理階段主要是對(duì)新聞流數(shù)據(jù)按照實(shí)體進(jìn)行分堆處理。

事件聚類(lèi)階段主要是對(duì)每一堆的新聞數(shù)據(jù)進(jìn)行關(guān)鍵詞的提取等操作，將堆內(nèi)的新聞進(jìn)一步的聚類(lèi)。

事件融合主要包括同批次事件融合和增量事件融合。事件抽取流程是分批次對(duì)輸入數(shù)據(jù)進(jìn)行處理。同批次事件融合主要解決不同實(shí)體屬于同一事件的情況，將前一步得到的類(lèi)簇進(jìn)行合并處理。增量事件融合是將新增的新聞數(shù)據(jù)和歷史 Base 的事件庫(kù)進(jìn)行增量融合。

最后，我們需要識(shí)別每一個(gè)事件類(lèi)簇中的事件元素，過(guò)濾無(wú)效事件，生成事件的描述。

六、知識(shí)規(guī)整－實(shí)體分類(lèi)

知識(shí)規(guī)整目的是將實(shí)體數(shù)據(jù)映射到知識(shí)體系，并對(duì)其關(guān)系屬性等信息進(jìn)行去噪，歸一化等預(yù)處理。如圖 9 所示，左側(cè)是從百科頁(yè)面獲取的武則天人物信息，右側(cè)是從電影相關(guān)網(wǎng)站中獲得的武則天信息，那么左側(cè)的“武則天”應(yīng)該被視為“人物類(lèi)－－歷史人物－－帝王”，右側(cè)“武則天”應(yīng)該被視為“作品－－影視作品－－電影”。左側(cè)人物的“民族”屬性的原始名稱(chēng)為“民族族群”，所以需要將其規(guī)整為 schema 定義的“民族”，這稱(chēng)之為屬性歸一。此外，由于不同來(lái)源的數(shù)據(jù)對(duì)實(shí)體名稱(chēng)會(huì)有不同的注釋?zhuān)缍拱甑摹拔鋭t天”這部電影后面加了一個(gè)年份備注，所以我們還需要對(duì)實(shí)體名進(jìn)行還原處理等各種清洗處理。知識(shí)規(guī)整的核心模塊是如何將實(shí)體映射到知識(shí)體系，即實(shí)體分類(lèi)。

圖10 數(shù)據(jù)規(guī)整的示列說(shuō)明

1．實(shí)體分類(lèi)的挑戰(zhàn)：

概念類(lèi)別多（200＋類(lèi)），具有層次性，細(xì)分類(lèi)別差異�。娪埃娨晞。�

實(shí)體屬性存在歧義：

圖11 實(shí)體分類(lèi)中屬性歧義問(wèn)題

實(shí)體名稱(chēng)或者實(shí)體簡(jiǎn)介信息具有迷惑性：例如實(shí)體＂菅直人＂是一個(gè)政治家，其名稱(chēng)容易和民族類(lèi)別混淆，電影“寄生蟲(chóng)”簡(jiǎn)介如下圖所示，其內(nèi)容和人物概念極其相似。

圖12 實(shí)體分類(lèi)中簡(jiǎn)介迷惑性問(wèn)題

2．實(shí)體分類(lèi)方法：

實(shí)體分類(lèi)本質(zhì)是一個(gè)多分類(lèi)問(wèn)題。針對(duì)知識(shí)庫(kù)的特點(diǎn)以及上述挑戰(zhàn)，我們分別從訓(xùn)練樣本構(gòu)建，特征選擇以及模型設(shè)計(jì)三方面實(shí)現(xiàn)實(shí)體分類(lèi)模塊。

1 ）實(shí)體分類(lèi)的訓(xùn)練樣本構(gòu)建：

圖13 實(shí)體分類(lèi)訓(xùn)練數(shù)據(jù)構(gòu)建流程

屬性規(guī)則模塊：每個(gè)實(shí)體頁(yè)面包含了實(shí)體結(jié)構(gòu)化屬性信息，利用這些屬性字段可以對(duì)實(shí)體進(jìn)行一個(gè)規(guī)則的分類(lèi)。如：人物類(lèi)別的實(shí)體大多包含民族，出生日期，職業(yè)等字段，歌手類(lèi)實(shí)體的職業(yè)字段中可能有“歌手”的屬性值。通過(guò)構(gòu)建正則式規(guī)則，可以批量對(duì)實(shí)體頁(yè)面進(jìn)行分類(lèi)。基于規(guī)則模塊得到的類(lèi)別信息準(zhǔn)確率高，但是泛化能力弱，它的結(jié)果既可以作為后續(xù)分類(lèi)模型的訓(xùn)練數(shù)據(jù) 1 也可以作為實(shí)體分類(lèi)的一路重要分類(lèi)結(jié)果。

圖14 Topbase中用于實(shí)體分類(lèi)的屬性規(guī)則配置頁(yè)面

簡(jiǎn)介分類(lèi)模塊：簡(jiǎn)介分類(lèi)模塊以規(guī)則模塊的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，可以得到一個(gè)以簡(jiǎn)介為實(shí)體分類(lèi)依據(jù)的分類(lèi)模型，然后基于該模型預(yù)測(cè)屬性規(guī)則模塊無(wú)法識(shí)別的實(shí)體，選擇高置信度的結(jié)果作為訓(xùn)練數(shù)據(jù) 2。

自動(dòng)構(gòu)建的訓(xùn)練數(shù)據(jù)去噪模塊：基于規(guī)則和簡(jiǎn)介分類(lèi)模塊可以得到部分分類(lèi)樣本，但是這些訓(xùn)練樣本不可避免的會(huì)引入噪聲，所以我們引入 N－折交叉訓(xùn)練預(yù)測(cè)自清洗數(shù)據(jù)，進(jìn)一步保留高置信的訓(xùn)練樣本，清洗思路如下圖所示。

圖15 實(shí)體分類(lèi)訓(xùn)練數(shù)據(jù)自清洗流程

運(yùn)營(yíng)模塊：運(yùn)營(yíng)模塊主要包括日常 badcase 收集以及標(biāo)注人員審核的預(yù)測(cè)置信度不高的樣本。運(yùn)營(yíng)數(shù)據(jù)會(huì)結(jié)合自動(dòng)構(gòu)建數(shù)據(jù)，聯(lián)合訓(xùn)練最終的實(shí)體分類(lèi)模型。

<上一頁(yè) 1 2 3 4 下一頁(yè)>