賽道|深蘭科技載譽自然語言處理領域歐洲頂會2021年
2021年4月19~23日,EACL2021因疫情影響于線上正式召開,這是計算語言學和自然語言處理領域的重要國際會議,在Google Scholar計算語言學刊物指標中排名第七。深蘭科技DeepBlueAI團隊參加了Shared Task on Sarcasm and Sentiment Detection in Arabic 比賽,并在其兩個子任務諷刺檢測和情感識別中,分別獲得了第二名和第三名的好成績,在深蘭榮譽榜上再添新篇。
獲獎技術方案分享
任務介紹
諷刺檢測要求識別一段文字中是否包含諷刺的內容,諷刺是當前情感分析系統(tǒng)的主要挑戰(zhàn)之一,因為具有諷刺性的句子通常用積極的表達方式去表示消極的情感。文本所表達的情感以及作者真正想表達的情感之間存在不同,這種情況給情感分析系統(tǒng)帶來了巨大的挑戰(zhàn)。
諷刺檢測、情感識別在其他語言中引起了很大的關注,但是在阿拉伯語上則沒有太多進展,該任務則是針對阿拉伯語,針對給定的一個推特文本,判斷是積極、消極或者中立情感,以及是否具有諷刺性。
數(shù)據(jù)分析
任務數(shù)據(jù)集名字為ArSarcasm-v2[1],數(shù)據(jù)包含以下幾個字段,tweet, sarcasm, sentiment, dialect,tweet代表推特文本,sarcasm為諷刺檢測的標簽,sentiment為情感分類的標簽,dialect表示當前文本確切屬于阿拉伯語中的哪個方言。
數(shù)據(jù)集統(tǒng)計如上圖所示,Arsarcasm-V2 共有12548條訓練文本,其中MSA占比達到了68.2%,Maghrebi占比較少,僅有42條。此外我們還分析了具有諷刺文本中的情感分布情況,占比如下圖所示?梢钥闯鲋S刺文本中89%具有消極情感,只有3%具有正面情感,可見諷刺一般情況下傳遞消極的信息。
模型
模型采用當前比較流行的預訓練模型,因為語言為阿拉伯語,我們采用了專門針對阿拉伯語的預訓練模型bert-large-arabertv02[2],以及多語言預訓練模型xlm-roberta-large[3]。其中模型結構如下,選取模型多層[CLS]位置的輸出進行加權平均得到[CLS]位置向量,然后經過全連接層,之后經過Multi-sample dropout[4]得到損失。對于諷刺檢測為二分類,我們采用Binary Cross Entropy 損失函數(shù),對于情感識別為三分類,我們采用Cross Entropy損失函數(shù)。
Multi-sample dropout 是dropout的一種變種,傳統(tǒng) dropout 在每輪訓練時會從輸入中隨機選擇一組樣本(稱之為 dropout 樣本),而 multi-sample dropout 會創(chuàng)建多個 dropout 樣本,然后平均所有樣本的損失,從而得到最終的損失,multi-sample dropout 共享中間的全連接層權重。通過綜合 M 個 dropout 樣本的損失來更新網絡參數(shù),使得最終損失比任何一個 dropout 樣本的損失都低。這樣做的效果類似于對一個 minibatch 中的每個輸入重復訓練 M 次。因此,它大大減少訓練迭代次數(shù),從而大幅加快訓練速度。因為大部分運算發(fā)生在 dropout 層之前的BERT層中,Multi-sample dropout 并不會重復這些計算,所以對每次迭代的計算成本影響不大。實驗表明,multi-sample dropout 還可以降低訓練集和驗證集的錯誤率和損失。
訓練策略
任務自適應預訓練(TAPT)[5],在當前和任務相關的數(shù)據(jù)集上進行掩碼語言模型(MLM)訓練,提升預訓練模型在當前數(shù)據(jù)集上的性能。
對抗訓練是一種引入噪聲的訓練方式,可以對參數(shù)進行正則化,從而提升模型的魯棒性和泛化能力。我們采用FGM (Fast Gradient Method)[6],通過在嵌入層加入擾動,從而獲得更穩(wěn)定的單詞表示形式和更通用的模型,以此提升模型效果。
知識蒸餾[7]由Hinton在2015年提出,主要應用在模型壓縮上,通過知識蒸餾用大模型所學習到的有用信息來訓練小模型,在保證性能差不多的情況下進行模型壓縮。我們將利用模型壓縮的思想,采用模型融合的方案,融合多個不同的模型作為teacher模型,將要訓練的作為student模型。
假設:采用arabertv模型,F(xiàn)1得分為70,采用不同參數(shù)、不同隨機數(shù),訓練多個arabertv 模型融合后F1可以達到71;在采用xlm-roberta模型,訓練多個模型后與arabertv模型進行融合得到最終的F1為72;谧詈笕诤系亩鄠模型,采用交叉驗證的方式給訓練集打上 soft label,此時的soft label已經包含多個模型學到的知識。隨后再去訓練arabertv模型,模型同時學習soft label以及本來hard label,學習soft label采用MSE損失函數(shù),學習hard label依舊采用交叉熵損失,通過這種方式訓練出來的arabertv模型的F1可以達到71點多,最后將蒸餾學出來的模型再與原來的模型融合,得到最后的結果。
模型融合
為了更好地利用數(shù)據(jù),我們采用7折交叉驗證,針對每一折我們使用了兩種預訓練模型,又通過改變不同的參數(shù)隨機數(shù)種子以及不同的訓練策略訓練了多個模型,之后對訓練集和測試集進行預測。為了更好地融合模型,我們針對諷刺檢測采用了線性回歸模型進行融合,針對情感識別模型,采用支持向量機SVM進行融合。
實驗結果
評價標準,針對諷刺檢測,只評價諷刺類的F1,針對情感分類則對各個類的F1求平均,為了更好地評估模型的好壞,我們采用7折交叉驗證的形式,以下結果是交叉驗證結果的平均。
從下表中可以看出,無論是諷刺檢測任務還是情感分類任務都是XLM-Roberta 模型相對好一些,經過TAPT和知識蒸餾后效果都有著顯著提升。對于諷刺檢測因為不同模型之間分數(shù)相差比較大,直接求平均效果不行,而采用線性回歸后則達到了一個不錯的水平,由于諷刺檢測類別不平衡,我們將閾值調整為0.41,即大于0.41為1類。同樣在情感分類任務中,由于多個模型之間的性能相差較大直接求平均也會造成性能的下降,我們最終采用SVM進行模型融合。
參考文獻
[1] Farha I A, Zaghouani W, Magdy W. Overview of the wanlp 2021 shared task on sarcasm and sentiment detection in arabic[C]//Proceedings of the Sixth Arabic Natural Language Processing Workshop. 2021.
[2] Antoun W, Baly F, Hajj H. Arabert: Transformer-based model for arabic language understanding[J]. arXiv preprint arXiv:2003.00104, 2020.
[3] Conneau A, Khandelwal K, Goyal N, et al. Unsupervised cross-lingual representation learning at scale[J]. arXiv preprint arXiv:1911.02116, 2019.
[4] Inoue H . Multi-Sample Dropout for Accelerated Training and Better Generalization[J]. 2019.
[5] Gururangan S, Marasovi? A, Swayamdipta S, et al. Don't Stop Pretraining: Adapt Language Models to Domains and Tasks[J]. arXiv preprint arXiv:2004.10964, 2020.
[6] Miyato T, Dai A M, Goodfellow I. Adversarial training methods for semi-supervised text classification[J]. arXiv preprint arXiv:1605.07725, 2016.
[7] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?