深蘭DeepBlueAI團(tuán)隊(duì)少量數(shù)據(jù)關(guān)系抽取論文被錄用
近日,EMNLP 2021在官網(wǎng)提前公布了今年的論文審稿結(jié)果,深蘭DeepBlueAI團(tuán)隊(duì)論文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被錄用。該論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語(yǔ)義兩個(gè)方面的信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。
2021
Nov
EMNLP(全稱Conference on Empirical Methods in Natural Language Processing)是國(guó)際自然語(yǔ)言處理頂級(jí)會(huì)議,由ACL SIGDAT主辦,每年舉辦一次,在Google Scholar計(jì)算語(yǔ)言學(xué)刊物指標(biāo)中排名第二,主要關(guān)注統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的應(yīng)用。近幾年隨著大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的發(fā)展,該會(huì)議人數(shù)逐年增加,受到越來(lái)越廣泛地關(guān)注。
EMNLP論文入選標(biāo)準(zhǔn)極為嚴(yán)格,EMNLP 2021共收到有效投稿3114篇,錄用754篇,錄用率僅為24.82%。按照慣例,EMNLP 2021評(píng)選了最佳長(zhǎng)論文、最佳短論文、杰出論文和最佳Demo論文四大獎(jiǎng)項(xiàng),共7篇論文入選。
今年EMNLP 2021 將于11月7日 - 11日在多米尼加共和國(guó)蓬塔卡納和線上聯(lián)合舉辦,會(huì)議為期五天,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授黃萱菁將擔(dān)任本次會(huì)議的程序主席。在即將召開的EMNLP學(xué)術(shù)會(huì)議上將展示自然語(yǔ)言處理領(lǐng)域的前沿研究成果,這些成果也將代表著相關(guān)領(lǐng)域和技術(shù)細(xì)分中的研究水平以及未來(lái)發(fā)展方向。
深蘭DeepBlueAI團(tuán)隊(duì)的論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語(yǔ)義兩個(gè)方面信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。
關(guān)系提取旨在發(fā)現(xiàn)給定句子中兩個(gè)實(shí)體之間的正確關(guān)系,是NLP中的一項(xiàng)基本任務(wù)。該問題通常被視為有監(jiān)督的分類問題,由大規(guī)模標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。近年來(lái),關(guān)系提取模型得到了明顯的發(fā)展。然而,訓(xùn)練樣本過少時(shí),模型性能會(huì)急劇下降。
在最近工作中,深蘭DeepBlueAI團(tuán)隊(duì)利用小樣本學(xué)習(xí)的進(jìn)步來(lái)解決低資源問題。少樣本學(xué)習(xí)的關(guān)鍵思想是學(xué)習(xí)一個(gè)用來(lái)比較query和support set samples中樣本相似度的模型,這樣,關(guān)系抽取的目標(biāo)從學(xué)習(xí)一個(gè)通用的、準(zhǔn)確的關(guān)系分類器變?yōu)閷W(xué)習(xí)一個(gè)將具有相同關(guān)系的實(shí)例映射到相近區(qū)域的映射模型。在少樣本學(xué)習(xí)的設(shè)定下,標(biāo)簽信息,即包含關(guān)系本身語(yǔ)義知識(shí)的關(guān)系標(biāo)簽,在訓(xùn)練和預(yù)測(cè)時(shí)并沒有被模型用到。深蘭DeepBlueAI團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,在預(yù)訓(xùn)練和微調(diào)中結(jié)合上述標(biāo)簽信息和各關(guān)系類別的樣本兩類映射可以顯著提高模型在少樣本關(guān)系提取任務(wù)上的表現(xiàn)。
01
語(yǔ)義映射預(yù)訓(xùn)練
預(yù)訓(xùn)練部分的目標(biāo)函數(shù)由三個(gè)部分組成:
CCR: 樣本表示間損失
CRR:樣本與標(biāo)簽間損失
MLM:語(yǔ)言模型損失,同BERT
深蘭DeepBlueAI團(tuán)隊(duì)采取類似CP (Peng et al., 2020)的方法中對(duì)模型進(jìn)行預(yù)訓(xùn)練。不同之處在于團(tuán)隊(duì)還考慮了標(biāo)簽信息,使用Wikidata作為預(yù)訓(xùn)練語(yǔ)料庫(kù),去除了Wikidata和DeepBlueAI團(tuán)隊(duì)用于后續(xù)實(shí)驗(yàn)的數(shù)據(jù)集之間的重復(fù)部分。
本部分中,深蘭DeepBlueAI團(tuán)隊(duì)使用BERT base作為基礎(chǔ)模型,采用AdamW優(yōu)化器,最大輸入長(zhǎng)度設(shè)置為60。深蘭DeepBlueAI團(tuán)隊(duì)共訓(xùn)練了11,000步,其中前500步為warmup,batch size設(shè)為2040,學(xué)習(xí)比率為3e-5。
02
監(jiān)督性關(guān)系抽取
本部分深蘭DeepBlueAI團(tuán)隊(duì)一共試驗(yàn)了MapRE預(yù)訓(xùn)練模型的兩種使用方式,即MapRE-L(直接使用全連接層對(duì)文本編碼輸出預(yù)測(cè)關(guān)系)和MapRE-R(采用關(guān)系編碼器編碼關(guān)系標(biāo)簽,再做相似度匹配),模型結(jié)構(gòu)如圖:
在監(jiān)督性關(guān)系抽取任務(wù)中深蘭科技評(píng)估兩個(gè)基準(zhǔn)數(shù)據(jù)集:ChemProt和Wiki80。前者包括56,000個(gè)實(shí)例和80種關(guān)系,后者包括10,065個(gè)實(shí)例和13種關(guān)系。
實(shí)驗(yàn)結(jié)果如下:
這里深蘭DeepBlueAI團(tuán)隊(duì)重點(diǎn)關(guān)注低資源關(guān)系抽取,選取以下三個(gè)有代表性的模型進(jìn)行比較。
1)BERT:該模型在文本的頭實(shí)體和尾實(shí)體部分分別增加特殊的標(biāo)記token,在BERT輸出后接幾個(gè)全連接層用于關(guān)系分類。
2)MTB (Soares et al., 2019):MTB模型假設(shè)無(wú)監(jiān)督數(shù)據(jù)中頭實(shí)體和尾實(shí)體相同的句子均為正樣本對(duì),即具有相同的關(guān)系。在測(cè)試階段,對(duì)query和support set的相似度得分進(jìn)行排名,將得分最高的關(guān)系作為預(yù)測(cè)結(jié)果。
3)CP (Peng et al., 2020):同MTB類似,我們的方法同CP模型的不同點(diǎn)在于,我們?cè)陬A(yù)訓(xùn)練和微調(diào)時(shí)均考慮了標(biāo)簽信息。
我們可以觀察到:
1)在BERT上進(jìn)行預(yù)訓(xùn)練(即MTB, CP和MapRE)可以提高模型性能
2)比較MapRE-L與CP和MTB,在預(yù)訓(xùn)練期間添加標(biāo)簽信息可以顯著提高模型性能,尤其是在資源極少的情況下,例如僅1%的訓(xùn)練集用于微調(diào)
3) 比較 MapRE-R 和 MapRE-L,其中前者在微調(diào)中也考慮了標(biāo)簽信息,表現(xiàn)出更好更穩(wěn)定的實(shí)驗(yàn)結(jié)果
結(jié)果表明在預(yù)訓(xùn)練和微調(diào)中使用標(biāo)簽信息均可顯著提高低資源監(jiān)督性關(guān)系抽取任務(wù)上的模型性能。
03
少樣本與零樣本關(guān)系抽取
在少樣本學(xué)習(xí)的情況下,模型需要在只有給定一定關(guān)系類別,每個(gè)類別少數(shù)樣本的情況下進(jìn)行預(yù)測(cè)。對(duì)于N way K shot問題,Support set S包含N個(gè)關(guān)系,每個(gè)關(guān)系有K個(gè)樣本,查詢集包含Q個(gè)樣本,每個(gè)樣本屬于 N 個(gè)關(guān)系之一。
該模型結(jié)構(gòu)如下:
模型預(yù)測(cè)結(jié)果由下式得出:
深蘭DeepBlueAI團(tuán)隊(duì)在兩個(gè)數(shù)據(jù)集上評(píng)估提出的方法:FewRel和NYT-25。FewRel 數(shù)據(jù)集包含70,000個(gè)句子和100個(gè)關(guān)系(每個(gè)關(guān)系有700個(gè)句子),數(shù)據(jù)來(lái)源為維基百科。其中64個(gè)關(guān)系用于訓(xùn)練,16個(gè)用于驗(yàn)證,以及20個(gè)用于測(cè)試。測(cè)試數(shù)據(jù)集包含 10,000 個(gè)句子,必須在線評(píng)估。NYT-25數(shù)據(jù)集是由Gao et al., 2019。DeepBlueAI團(tuán)隊(duì)隨機(jī)抽取 10 個(gè)關(guān)系用于訓(xùn)練,5 個(gè)用于驗(yàn)證,10 個(gè)用于測(cè)試。
實(shí)驗(yàn)結(jié)果如下:
如上表所示,在所有的實(shí)驗(yàn)設(shè)置下,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE,由于在預(yù)訓(xùn)練和微調(diào)中均考慮了support set樣本句子和關(guān)系標(biāo)簽信息,提供了穩(wěn)定的性能表現(xiàn),并大幅優(yōu)于一系列baseline方法。結(jié)果證明了團(tuán)隊(duì)提出的框架的有效性,并表明了關(guān)系抽取中關(guān)系標(biāo)簽語(yǔ)義映射信息的重要性。
深蘭DeepBlueAI團(tuán)隊(duì)進(jìn)一步考慮了低資源關(guān)系抽取的極端條件,即零樣本的情況。在該設(shè)定下,模型輸入不包含任何support set樣本。在零樣本條件下,以上大部分少樣本關(guān)系抽取框架不適用,因?yàn)槠渌擃惸P偷拿總(gè)關(guān)系類別中至少需要有一個(gè)樣本。
結(jié)果表明,與其它最近零樣本學(xué)習(xí)工作相比,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE在所有設(shè)定下都獲得了出色的表現(xiàn),證明了MapRE的有效性。
總結(jié)
在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)提出了一種同時(shí)考慮標(biāo)簽信息和樣本信息的關(guān)系抽取模型,MapRE。大量實(shí)驗(yàn)結(jié)果表明,MapRE模型對(duì)監(jiān)督性關(guān)系抽取、少樣本關(guān)系抽取和零樣本關(guān)系抽取任務(wù)中展示了出色的表現(xiàn)。結(jié)果表明樣本和標(biāo)簽信息兩者在預(yù)訓(xùn)練和微調(diào)中都起到了重要作用。在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)沒有研究領(lǐng)域遷移造成的潛在影響,我們將相關(guān)分析作為下一步的工作。
綜上,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE模型結(jié)合了零樣本和少樣本學(xué)習(xí)的特點(diǎn),結(jié)合了同關(guān)系樣本和關(guān)系語(yǔ)義兩個(gè)方面的信息,目前已在深蘭科技智能數(shù)據(jù)標(biāo)注平臺(tái)文本關(guān)系抽取功能中得以應(yīng)用,大幅提升了模型在少量訓(xùn)練樣本下的表現(xiàn),在數(shù)據(jù)的智能標(biāo)注等領(lǐng)域可大幅節(jié)省人力,提升標(biāo)注效率及標(biāo)注質(zhì)量。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?