訂閱
糾錯(cuò)
加入自媒體

深蘭DeepBlueAI團(tuán)隊(duì)少量數(shù)據(jù)關(guān)系抽取論文被錄用

2021-11-10 11:33
AI世界
關(guān)注

近日,EMNLP 2021在官網(wǎng)提前公布了今年的論文審稿結(jié)果,深蘭DeepBlueAI團(tuán)隊(duì)論文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被錄用。該論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語(yǔ)義兩個(gè)方面的信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。

2021

Nov

EMNLP(全稱Conference on Empirical Methods in Natural Language Processing)是國(guó)際自然語(yǔ)言處理頂級(jí)會(huì)議,由ACL SIGDAT主辦,每年舉辦一次,在Google Scholar計(jì)算語(yǔ)言學(xué)刊物指標(biāo)中排名第二,主要關(guān)注統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的應(yīng)用。近幾年隨著大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的發(fā)展,該會(huì)議人數(shù)逐年增加,受到越來(lái)越廣泛地關(guān)注。

EMNLP論文入選標(biāo)準(zhǔn)極為嚴(yán)格,EMNLP 2021共收到有效投稿3114篇,錄用754篇,錄用率僅為24.82%。按照慣例,EMNLP 2021評(píng)選了最佳長(zhǎng)論文、最佳短論文、杰出論文和最佳Demo論文四大獎(jiǎng)項(xiàng),共7篇論文入選。

今年EMNLP 2021 將于11月7日 - 11日在多米尼加共和國(guó)蓬塔卡納和線上聯(lián)合舉辦,會(huì)議為期五天,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授黃萱菁將擔(dān)任本次會(huì)議的程序主席。在即將召開的EMNLP學(xué)術(shù)會(huì)議上將展示自然語(yǔ)言處理領(lǐng)域的前沿研究成果,這些成果也將代表著相關(guān)領(lǐng)域和技術(shù)細(xì)分中的研究水平以及未來(lái)發(fā)展方向。

深蘭DeepBlueAI團(tuán)隊(duì)的論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語(yǔ)義兩個(gè)方面信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。

關(guān)系提取旨在發(fā)現(xiàn)給定句子中兩個(gè)實(shí)體之間的正確關(guān)系,是NLP中的一項(xiàng)基本任務(wù)。該問題通常被視為有監(jiān)督的分類問題,由大規(guī)模標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。近年來(lái),關(guān)系提取模型得到了明顯的發(fā)展。然而,訓(xùn)練樣本過少時(shí),模型性能會(huì)急劇下降。

在最近工作中,深蘭DeepBlueAI團(tuán)隊(duì)利用小樣本學(xué)習(xí)的進(jìn)步來(lái)解決低資源問題。少樣本學(xué)習(xí)的關(guān)鍵思想是學(xué)習(xí)一個(gè)用來(lái)比較query和support set samples中樣本相似度的模型,這樣,關(guān)系抽取的目標(biāo)從學(xué)習(xí)一個(gè)通用的、準(zhǔn)確的關(guān)系分類器變?yōu)閷W(xué)習(xí)一個(gè)將具有相同關(guān)系的實(shí)例映射到相近區(qū)域的映射模型。在少樣本學(xué)習(xí)的設(shè)定下,標(biāo)簽信息,即包含關(guān)系本身語(yǔ)義知識(shí)的關(guān)系標(biāo)簽,在訓(xùn)練和預(yù)測(cè)時(shí)并沒有被模型用到。深蘭DeepBlueAI團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,在預(yù)訓(xùn)練和微調(diào)中結(jié)合上述標(biāo)簽信息和各關(guān)系類別的樣本兩類映射可以顯著提高模型在少樣本關(guān)系提取任務(wù)上的表現(xiàn)。

01

語(yǔ)義映射預(yù)訓(xùn)練

預(yù)訓(xùn)練部分的目標(biāo)函數(shù)由三個(gè)部分組成:

CCR: 樣本表示間損失

CRR:樣本與標(biāo)簽間損失

MLM:語(yǔ)言模型損失,同BERT

深蘭DeepBlueAI團(tuán)隊(duì)采取類似CP (Peng et al., 2020)的方法中對(duì)模型進(jìn)行預(yù)訓(xùn)練。不同之處在于團(tuán)隊(duì)還考慮了標(biāo)簽信息,使用Wikidata作為預(yù)訓(xùn)練語(yǔ)料庫(kù),去除了Wikidata和DeepBlueAI團(tuán)隊(duì)用于后續(xù)實(shí)驗(yàn)的數(shù)據(jù)集之間的重復(fù)部分。

本部分中,深蘭DeepBlueAI團(tuán)隊(duì)使用BERT base作為基礎(chǔ)模型,采用AdamW優(yōu)化器,最大輸入長(zhǎng)度設(shè)置為60。深蘭DeepBlueAI團(tuán)隊(duì)共訓(xùn)練了11,000步,其中前500步為warmup,batch size設(shè)為2040,學(xué)習(xí)比率為3e-5。

02

監(jiān)督性關(guān)系抽取

本部分深蘭DeepBlueAI團(tuán)隊(duì)一共試驗(yàn)了MapRE預(yù)訓(xùn)練模型的兩種使用方式,即MapRE-L(直接使用全連接層對(duì)文本編碼輸出預(yù)測(cè)關(guān)系)和MapRE-R(采用關(guān)系編碼器編碼關(guān)系標(biāo)簽,再做相似度匹配),模型結(jié)構(gòu)如圖:

在監(jiān)督性關(guān)系抽取任務(wù)中深蘭科技評(píng)估兩個(gè)基準(zhǔn)數(shù)據(jù)集:ChemProt和Wiki80。前者包括56,000個(gè)實(shí)例和80種關(guān)系,后者包括10,065個(gè)實(shí)例和13種關(guān)系。

實(shí)驗(yàn)結(jié)果如下:

這里深蘭DeepBlueAI團(tuán)隊(duì)重點(diǎn)關(guān)注低資源關(guān)系抽取,選取以下三個(gè)有代表性的模型進(jìn)行比較。

1)BERT:該模型在文本的頭實(shí)體和尾實(shí)體部分分別增加特殊的標(biāo)記token,在BERT輸出后接幾個(gè)全連接層用于關(guān)系分類。

2)MTB (Soares et al., 2019):MTB模型假設(shè)無(wú)監(jiān)督數(shù)據(jù)中頭實(shí)體和尾實(shí)體相同的句子均為正樣本對(duì),即具有相同的關(guān)系。在測(cè)試階段,對(duì)query和support set的相似度得分進(jìn)行排名,將得分最高的關(guān)系作為預(yù)測(cè)結(jié)果。

3)CP (Peng et al., 2020):同MTB類似,我們的方法同CP模型的不同點(diǎn)在于,我們?cè)陬A(yù)訓(xùn)練和微調(diào)時(shí)均考慮了標(biāo)簽信息。

我們可以觀察到:

1)在BERT上進(jìn)行預(yù)訓(xùn)練(即MTB, CP和MapRE)可以提高模型性能

2)比較MapRE-L與CP和MTB,在預(yù)訓(xùn)練期間添加標(biāo)簽信息可以顯著提高模型性能,尤其是在資源極少的情況下,例如僅1%的訓(xùn)練集用于微調(diào)

3) 比較 MapRE-R 和 MapRE-L,其中前者在微調(diào)中也考慮了標(biāo)簽信息,表現(xiàn)出更好更穩(wěn)定的實(shí)驗(yàn)結(jié)果

結(jié)果表明在預(yù)訓(xùn)練和微調(diào)中使用標(biāo)簽信息均可顯著提高低資源監(jiān)督性關(guān)系抽取任務(wù)上的模型性能。

03

少樣本與零樣本關(guān)系抽取

在少樣本學(xué)習(xí)的情況下,模型需要在只有給定一定關(guān)系類別,每個(gè)類別少數(shù)樣本的情況下進(jìn)行預(yù)測(cè)。對(duì)于N way K shot問題,Support set S包含N個(gè)關(guān)系,每個(gè)關(guān)系有K個(gè)樣本,查詢集包含Q個(gè)樣本,每個(gè)樣本屬于 N 個(gè)關(guān)系之一。

該模型結(jié)構(gòu)如下:

模型預(yù)測(cè)結(jié)果由下式得出:

深蘭DeepBlueAI團(tuán)隊(duì)在兩個(gè)數(shù)據(jù)集上評(píng)估提出的方法:FewRel和NYT-25。FewRel 數(shù)據(jù)集包含70,000個(gè)句子和100個(gè)關(guān)系(每個(gè)關(guān)系有700個(gè)句子),數(shù)據(jù)來(lái)源為維基百科。其中64個(gè)關(guān)系用于訓(xùn)練,16個(gè)用于驗(yàn)證,以及20個(gè)用于測(cè)試。測(cè)試數(shù)據(jù)集包含 10,000 個(gè)句子,必須在線評(píng)估。NYT-25數(shù)據(jù)集是由Gao et al., 2019。DeepBlueAI團(tuán)隊(duì)隨機(jī)抽取 10 個(gè)關(guān)系用于訓(xùn)練,5 個(gè)用于驗(yàn)證,10 個(gè)用于測(cè)試。

實(shí)驗(yàn)結(jié)果如下:

如上表所示,在所有的實(shí)驗(yàn)設(shè)置下,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE,由于在預(yù)訓(xùn)練和微調(diào)中均考慮了support set樣本句子和關(guān)系標(biāo)簽信息,提供了穩(wěn)定的性能表現(xiàn),并大幅優(yōu)于一系列baseline方法。結(jié)果證明了團(tuán)隊(duì)提出的框架的有效性,并表明了關(guān)系抽取中關(guān)系標(biāo)簽語(yǔ)義映射信息的重要性。

深蘭DeepBlueAI團(tuán)隊(duì)進(jìn)一步考慮了低資源關(guān)系抽取的極端條件,即零樣本的情況。在該設(shè)定下,模型輸入不包含任何support set樣本。在零樣本條件下,以上大部分少樣本關(guān)系抽取框架不適用,因?yàn)槠渌擃惸P偷拿總(gè)關(guān)系類別中至少需要有一個(gè)樣本。

結(jié)果表明,與其它最近零樣本學(xué)習(xí)工作相比,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE在所有設(shè)定下都獲得了出色的表現(xiàn),證明了MapRE的有效性。

總結(jié)

在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)提出了一種同時(shí)考慮標(biāo)簽信息和樣本信息的關(guān)系抽取模型,MapRE。大量實(shí)驗(yàn)結(jié)果表明,MapRE模型對(duì)監(jiān)督性關(guān)系抽取、少樣本關(guān)系抽取和零樣本關(guān)系抽取任務(wù)中展示了出色的表現(xiàn)。結(jié)果表明樣本和標(biāo)簽信息兩者在預(yù)訓(xùn)練和微調(diào)中都起到了重要作用。在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)沒有研究領(lǐng)域遷移造成的潛在影響,我們將相關(guān)分析作為下一步的工作。

綜上,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE模型結(jié)合了零樣本和少樣本學(xué)習(xí)的特點(diǎn),結(jié)合了同關(guān)系樣本和關(guān)系語(yǔ)義兩個(gè)方面的信息,目前已在深蘭科技智能數(shù)據(jù)標(biāo)注平臺(tái)文本關(guān)系抽取功能中得以應(yīng)用,大幅提升了模型在少量訓(xùn)練樣本下的表現(xiàn),在數(shù)據(jù)的智能標(biāo)注等領(lǐng)域可大幅節(jié)省人力,提升標(biāo)注效率及標(biāo)注質(zhì)量。


聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)