萬字詳解:騰訊如何自研大規(guī)模知識圖譜 Topbase
2) 實體分類的特征選擇:
屬性名稱:除了通用類的屬性名稱,如:中文名,別名,正文,簡介等,其他屬性名稱都作為特征;
屬性值:不是所有的屬性值都是有助于實體分類,如性別的屬性值“男”或者“女”對區(qū)分該實體是“商業(yè)人物”和“娛樂人物”沒有幫助,但是職業(yè)的屬性值如“歌手”“CEO”等對于實體的細類別則有很強的指示作用,這些屬性值可以作為實體細分類的重要特征。一個屬性值是否需要加入他的屬性值信息,我們基于第一部分得到的訓(xùn)練數(shù)據(jù),利用特征選擇指標如卡方檢驗值,信息增益等進行篩選。
簡介:由于簡介內(nèi)容相對較長且信息冗余,并非用得越多越好。針對簡介的利用我們主要采用百科簡介中頭部幾句話中的主語是該實體的句子。
3) 實體分類模型
模型架構(gòu):基于 bert 預(yù)訓(xùn)練語言模型的多 Label 分類模型
圖16 實體分類基礎(chǔ)模型
模型輸入:我們針對上述特征進行拼接作為 bert 的輸入,利用[sep]隔開實體的兩類信息,每一類信息用逗號隔開不同部分。第一類信息是實體名稱和實體簡介,刻畫了實體的一個基本描述內(nèi)容,第二類信息是實體的各種屬性,刻畫了實體的屬性信息。例如,劉德華的輸入形式如下:
圖17 實體分類模型的輸入形式
模型 loss:基于層次 loss 方式,實體 Label 是子類:父類 Label 要轉(zhuǎn)換為正例計算 loss;實體 Label 是父類:所有子類 label 以一定概率 mask 不產(chǎn)生負例 loss,避免訓(xùn)練數(shù)據(jù)存在的細類別漏召回問題。
七、知識融合 - 實體對齊
知識融合的目的是將不同來源的數(shù)據(jù)進行合并處理。如從搜狗百科,體育頁面以及 QQ 音樂都獲取到了"姚明"信息,首先需要判斷這些來源的"姚明"是否指同一實體,如果是同一個實體(圖 18 中的搜狗和虎撲的姚明頁面)則可以將他們的信息進行融合,如果不是(QQ 音樂的姚明頁面)則不應(yīng)該將其融合。知識融合的核心是實體對齊,即如何將不同來源的同一個實體進行合并。
圖18 知識融合示列說明
1. 實體對齊挑戰(zhàn)
不同來源實體的屬性信息重疊少,導(dǎo)致相似度特征稀疏,容易欠融合;
圖19 來自于百科和旅游網(wǎng)站的武夷山頁面信息
同系列作品(電影,電視劇)相似度高,容易過融合,如兩部還珠格格電視劇
圖20 兩部還珠格格的信息內(nèi)容
多路來源的實體信息量很大(億級別頁面),如果每次進行全局融合計算復(fù)雜度高,而且會產(chǎn)生融合實體的 ID 漂移問題。
2. 實體對齊的解決思路
實體對齊的整體流程如圖所示,其主要環(huán)節(jié)包括數(shù)據(jù)分桶,桶內(nèi)實體相似度計算,桶內(nèi)實體的聚類融合。
圖21 Topbase實體對齊流程圖
1)數(shù)據(jù)分桶:
數(shù)據(jù)分桶的目的是對所有的多源實體數(shù)據(jù)進行一個粗聚類,粗聚類的方法基于簡單的規(guī)則對數(shù)據(jù)進行分桶,具體規(guī)則主要是同名(原名或者別名相同)實體分在一個桶內(nèi),除了基于名稱匹配,我們還采用一些專有的屬性值進行分桶,如出生年月和出生地一致的人物分在一個桶。
2)實體相似度計算:
實體相似度直接決定了兩個實體是否可以合并,它是實體對齊任務(wù)中的核心。為了解決相似屬性稀疏導(dǎo)致的欠融合問題,我們引入異構(gòu)網(wǎng)絡(luò)向量化表示的特征,為了解決同系列作品極其相似的過融合問題,我們引入了互斥特征。
異構(gòu)網(wǎng)絡(luò)向量化表示特征:每個來源的數(shù)據(jù)可以構(gòu)建一個同源實體關(guān)聯(lián)網(wǎng)絡(luò),邊是兩個實體頁面之間的超鏈接,如下圖所示,百科空間可以構(gòu)建一個百科實體關(guān)聯(lián)網(wǎng)絡(luò),影視劇網(wǎng)站可以構(gòu)建一個影視劇網(wǎng)站的實體關(guān)聯(lián)網(wǎng)絡(luò)。不同空間的兩個實體,如果存在高重合度信息,容易判別二者相似度的兩個實體,可以建立映射關(guān)系(如影視劇網(wǎng)站的梁朝偉頁面和百科的梁朝偉頁面信息基本一致,則可以認為二者是同一個實體,建立鏈接關(guān)系),這樣可以將多源異構(gòu)網(wǎng)絡(luò)進行合并,梁朝偉和劉德華屬于連接節(jié)點,兩個無間道重合信息少,則作為兩個獨立的節(jié)點。然后基于 deepwalk 方式得到多源異構(gòu)網(wǎng)絡(luò)的節(jié)點向量化表示特征。
圖22 多源異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)圖
文本相似特征:主要是針對存在簡介信息的實體,利用 bert 編碼得到向量,如果兩個實體都存在簡介信息,則將兩個簡介向量進行點乘得到他們的文本相似度特征;
基本特征:其他屬性的相似度特征,每一維表示屬性,每一維的值表示該屬性值的一個 Jaccard 相似度;
互斥特征:主要解決同系列作品及其相似的問題,人工設(shè)定的重要區(qū)分度特征,如電視劇的集數(shù),系列名,上映時間。
最后,按照下圖結(jié)構(gòu)將上述相似度特征進行融合預(yù)測兩兩實體是否是同一實體;
圖23 實體對相似度打分模塊
3)相似實體的聚類合并:
Base 融合:在上述步驟的基礎(chǔ)上,我們采用層次聚類算法,對每一個桶的實體進行對齊合并,得到 base 版的融合數(shù)據(jù),然后賦予每一個融合后的實體一個固定的 ID 值,這就得到了一個 Base 的融合庫;
增量融合:對于每日新增的實體頁面信息,我們不再重新進行聚類處理,而是采用“貼”的模式,將每一個新增實體頁面和已有的融合實體進行相似度計算,判斷該實體頁面應(yīng)該歸到哪一個融合實體中,如果相似度都低于設(shè)置的閾值,則該新增實體獨立成一堆,并設(shè)置一個新的融合實體 ID。增量融合的策略可以避免每次重復(fù)計算全量實體頁面的融合過程,方便數(shù)據(jù)及時更新,同時保證各個融合實體的穩(wěn)定性,不會輕易發(fā)生融合實體 ID 的漂移問題;
融合拆解:由于 Base 融合可能存在噪聲,所以我們增加了一個融合的修復(fù)模塊,針對發(fā)現(xiàn)的 badcase,對以融合成堆的實體進行拆解重新融合,這樣可以局部修復(fù)融合錯誤,方便運營以及批量處理 badcase。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?