2020 年 10 篇必讀的 NLP 突破論文 LIST
9、聊天機(jī)器人 Meena
開放域聊天機(jī)器人仍然存在明顯的弱點,比如說它們的響應(yīng)通常沒有意義,或者過于模糊或籠統(tǒng)。
為了解決這些問題,谷歌研究團(tuán)隊引入了 Meena(一個具有 2.6B 參數(shù)的生成式會話模型)。Meena 的 seq2seq 模型每層使用的是 Evolved Transformer (ET) 塊。Encoder 端使用了 1 個 ET 層(相當(dāng)于 2 層 Transformer),Decoder 端使用了 13 個 ET 層(相當(dāng)于 26 層 Transformer)。
在多回合會話中訓(xùn)練模型,輸入序列包括上下文的所有回合(最多 7 個),輸出序列為響應(yīng)。相比于 GPT-2 訓(xùn)練使用了 40GB 的文檔數(shù)據(jù),Meena 訓(xùn)練使用了 341GB 的對話數(shù)據(jù)。Meena 的模型參數(shù)規(guī)模達(dá)到了 2.6B,在 GPT-2 的基礎(chǔ)上又大了不少。
與此同時,為了測量諸如 Meena 之類的開放域聊天機(jī)器人的質(zhì)量,研究人員引入了一種新的人類評估指標(biāo),稱為敏感度和敏感度平均值(SSA),它可以測量聊天機(jī)器人的兩個基本方面 —— 有道理和具體。
Meena 的出現(xiàn)是一個進(jìn)一步將計算機(jī)交互人性化的探索,可以幫助改善外語練習(xí)、使交互式電影和視頻游戲角色具有關(guān)聯(lián)性等應(yīng)用場景。
不過,考慮到模型中與安全性和偏差有關(guān)的挑戰(zhàn),研究團(tuán)隊尚未開源該模型。
10、BlenderBot
Facebook AI Research 團(tuán)隊顯示,有了適當(dāng)?shù)挠?xùn)練數(shù)據(jù)和生成策略,大型模型可以學(xué)習(xí)許多重要的會話技巧,例如提高參與度、運用知識、富有同情心和保持角色一致性等等。
他們建立了一個先進(jìn)的對話機(jī)器人,名為 “BlenderBot”。利用這個具有 9.4B 參數(shù)的模型,團(tuán)隊對它進(jìn)行了一項名為 Blended Skill Talk 的新任務(wù)的訓(xùn)練。
建立 BlenderBot 這樣的開放域聊天機(jī)器人,有以下三個關(guān)鍵要素:
?規(guī)模大。最大的模型具有 94 億個參數(shù),并在提取的對話的 15 億個訓(xùn)練示例中進(jìn)行了訓(xùn)練。
?混合技能。聊天機(jī)器人接受了 “混合技能對話” 任務(wù)的培訓(xùn),以學(xué)習(xí)諸如使用個性,使用知識和表現(xiàn)同情心之類的技能。
?用于解碼的 Beam search 。
與上面的第九項研究 Meena 相比,F(xiàn)acebook 的這項工作進(jìn)一步提升了基于預(yù)訓(xùn)練模型構(gòu)建的聊天機(jī)器人的回復(fù)效果,甚至在短對話(14 輪以下)的人工評估中獲得了非常接近人類的得分。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?