訂閱
糾錯(cuò)
加入自媒體

AI妲己來了?看看谷歌DeepMind等團(tuán)隊(duì)如何通過“好奇心獎(jiǎng)勵(lì)”機(jī)制,讓AI在多輪對(duì)話中主動(dòng)探索用戶特質(zhì)

引言:一個(gè)好的對(duì)話代理,應(yīng)該將每一次交互都視為了解用戶的寶貴機(jī)會(huì)。

全文約 3600 字,預(yù)計(jì)閱讀時(shí)間 10 分鐘

人工智能飛速發(fā)展的今天,聊天機(jī)器人早已不再是簡(jiǎn)單的問答工具。它們被廣泛應(yīng)用于教育、醫(yī)療、健身等場(chǎng)景,試圖為用戶提供個(gè)性化的互動(dòng)體驗(yàn)。然而,傳統(tǒng)的對(duì)話模型往往“一刀切”,難以精準(zhǔn)適配每個(gè)用戶的獨(dú)特需求。如何讓AI在對(duì)話中動(dòng)態(tài)學(xué)習(xí)用戶偏好,實(shí)現(xiàn)真正的個(gè)性化交互?

近日,一項(xiàng)由Google DeepMind、華盛頓大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)表的研究《Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward》提出了一種令人興奮的解決方案:通過“好奇心獎(jiǎng)勵(lì)”機(jī)制,讓AI在多輪對(duì)話中主動(dòng)探索用戶特質(zhì),實(shí)現(xiàn)真正個(gè)性化的交互體驗(yàn)。這項(xiàng)研究為教育、醫(yī)療等領(lǐng)域的個(gè)性化對(duì)話系統(tǒng)開辟了新可能。讓我們一起來看看這項(xiàng)工作的魅力所在!

創(chuàng)新點(diǎn):好奇心驅(qū)動(dòng)的個(gè)性化對(duì)話新范式

傳統(tǒng)的大型語言模型(LLM)在對(duì)話中往往依賴單一的獎(jiǎng)勵(lì)函數(shù),追求“對(duì)所有人都適用”的通用答案。這種方法雖然能保證一定的幫助性和安全性,卻忽略了用戶的個(gè)性差異。比如,在教育場(chǎng)景中,有人喜歡聽故事學(xué)習(xí),有人更愛動(dòng)手實(shí)踐;而在健身建議中,有人偏好戶外跑步,有人只想在家做瑜伽,F(xiàn)有模型通常需要大量用戶歷史數(shù)據(jù)來實(shí)現(xiàn)個(gè)性化,但這在實(shí)際應(yīng)用中往往不現(xiàn)實(shí)——新用戶怎么辦?用戶偏好隨時(shí)變化怎么辦?

這項(xiàng)研究提出了一種全新的框架,通過引入內(nèi)在動(dòng)機(jī)(Intrinsic Motivation),讓AI在對(duì)話中主動(dòng)“好奇”用戶的需求。核心創(chuàng)新在于為AI設(shè)計(jì)了一個(gè)好奇心獎(jiǎng)勵(lì)機(jī)制,鼓勵(lì)它通過提問或調(diào)整對(duì)話風(fēng)格來減少對(duì)用戶特質(zhì)的不確定性。換句話說,AI不再被動(dòng)回答,而是像一個(gè)敏銳的偵探,在對(duì)話中不斷收集線索,推測(cè)你的喜好、個(gè)性或需求,并據(jù)此調(diào)整自己的回應(yīng)。

具體來說,研究團(tuán)隊(duì)在多輪強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,加入了一個(gè)額外的獎(jiǎng)勵(lì)信號(hào)。這個(gè)信號(hào)基于AI對(duì)用戶類型的信念更新:當(dāng)AI通過對(duì)話更準(zhǔn)確地推測(cè)出用戶特質(zhì)時(shí),它會(huì)獲得獎(jiǎng)勵(lì)。這種機(jī)制讓AI學(xué)會(huì)了如何在對(duì)話中“聰明”地提問,比如在教育場(chǎng)景中詢問“你更喜歡聽故事還是做實(shí)驗(yàn)?”,從而快速鎖定用戶的學(xué)習(xí)風(fēng)格。同時(shí)還能通過結(jié)合稀疏的最終獎(jiǎng)勵(lì)(外部獎(jiǎng)勵(lì))和逐輪的內(nèi)在獎(jiǎng)勵(lì),解決傳統(tǒng)RLHF在個(gè)性化任務(wù)中的稀疏信號(hào)和數(shù)據(jù)不平衡問題。

研究還引入了基于潛能的獎(jiǎng)勵(lì)塑造(Potential-based Reward Shaping),確保這種好奇心獎(jiǎng)勵(lì)不會(huì)改變AI的最終目標(biāo),而是加速其學(xué)習(xí)過程。

論文中定義了多種獎(jiǎng)勵(lì)函數(shù),例如基于預(yù)測(cè)準(zhǔn)確度的“差分準(zhǔn)確度獎(jiǎng)勵(lì)”(Differential Accuracy)和基于信息熵的“差分熵獎(jiǎng)勵(lì)”(Differential Entropy),這些設(shè)計(jì)讓AI在探索用戶特質(zhì)時(shí)更加高效。

這種方法的最大亮點(diǎn)在于,它無需依賴大量的用戶歷史數(shù)據(jù)或預(yù)先構(gòu)建的用戶畫像。即使面對(duì)全新用戶,模型也能在對(duì)話中實(shí)時(shí)學(xué)習(xí),動(dòng)態(tài)調(diào)整策略。這種“在線個(gè)性化”的能力,極大地拓展了對(duì)話AI在教育、醫(yī)療等領(lǐng)域的應(yīng)用潛力。例如,在教育場(chǎng)景中,模型可以根據(jù)學(xué)生的學(xué)習(xí)風(fēng)格調(diào)整教學(xué)方式;在健身推薦中,它能根據(jù)用戶的生活習(xí)慣和身體狀況,量身定制鍛煉計(jì)劃。

圖1:傳統(tǒng)模型(左上)對(duì)所有用戶一視同仁,忽略個(gè)性差異;而新方法(右上)通過好奇心獎(jiǎng)勵(lì),讓AI在對(duì)話中主動(dòng)學(xué)習(xí)用戶偏好并適配。圖片展示了AI如何通過每輪對(duì)話更新對(duì)用戶類型的信念,從而實(shí)現(xiàn)個(gè)性化交互。

實(shí)驗(yàn)方法

為了驗(yàn)證這一方法的有效性,研究團(tuán)隊(duì)在兩個(gè)高度個(gè)性化的場(chǎng)景——教育對(duì)話和健身推薦中進(jìn)行了深入實(shí)驗(yàn)。他們不僅設(shè)計(jì)了精細(xì)的獎(jiǎng)勵(lì)模型,還構(gòu)建了多樣化的數(shù)據(jù)集和評(píng)估體系,確保實(shí)驗(yàn)結(jié)果的可靠性和普適性。

實(shí)驗(yàn)場(chǎng)景與數(shù)據(jù)集:教育與健身的雙重考驗(yàn)

研究團(tuán)隊(duì)選擇了兩個(gè)高度依賴個(gè)性化的場(chǎng)景進(jìn)行實(shí)驗(yàn),分別是教育對(duì)話(Education Dialogue)和健身推薦(Exercise Recommendation)。這兩個(gè)場(chǎng)景不僅覆蓋了不同領(lǐng)域的應(yīng)用需求,還對(duì)模型的適應(yīng)能力和泛化能力提出了高要求。

在教育對(duì)話場(chǎng)景中,研究利用了Shani等人(2024)提供的模擬數(shù)據(jù)集,構(gòu)建了一個(gè)虛擬的師生對(duì)話環(huán)境。學(xué)生由預(yù)訓(xùn)練的Gemma 2B模型模擬,隨機(jī)表現(xiàn)出講授型(Lecture-based)或?qū)嵺`型(Hands-on)兩種學(xué)習(xí)風(fēng)格。模型的任務(wù)是根據(jù)學(xué)生的反饋,動(dòng)態(tài)調(diào)整教學(xué)策略,例如通過講故事或設(shè)計(jì)實(shí)驗(yàn)來講解知識(shí)點(diǎn)。為了評(píng)估模型的個(gè)性化能力,研究團(tuán)隊(duì)使用Gemma 7B模型作為“用戶分類器”,實(shí)時(shí)預(yù)測(cè)學(xué)生的學(xué)習(xí)風(fēng)格,并根據(jù)預(yù)測(cè)準(zhǔn)確度的提升計(jì)算內(nèi)在獎(jiǎng)勵(lì)。

在健身推薦場(chǎng)景中,研究團(tuán)隊(duì)全新設(shè)計(jì)了一個(gè)數(shù)據(jù)集,模擬健康顧問與用戶的交互。數(shù)據(jù)集涵蓋了20種用戶屬性,包括年齡、性格、身體狀況等,其中5種屬性直接影響推薦的鍛煉策略(如戶外運(yùn)動(dòng)或室內(nèi)瑜伽)。通過Gemini 1.5 Pro模型生成用戶背景故事,確保模擬用戶的反應(yīng)真實(shí)且一致。模型需要通過多輪對(duì)話,逐步推斷用戶的需求,并推薦最適合的鍛煉計(jì)劃。

獎(jiǎng)勵(lì)模型:內(nèi)外兼修的激勵(lì)機(jī)制

研究的核心在于獎(jiǎng)勵(lì)模型的設(shè)計(jì)。傳統(tǒng)的RLHF通常僅依賴外部獎(jiǎng)勵(lì)(External Reward),即對(duì)話結(jié)束時(shí)用戶給予的整體評(píng)分。然而,這種獎(jiǎng)勵(lì)信號(hào)往往過于稀疏,難以指導(dǎo)模型在對(duì)話早期做出個(gè)性化決策。為此,研究團(tuán)隊(duì)引入了基于內(nèi)在動(dòng)機(jī)的獎(jiǎng)勵(lì)機(jī)制,具體包括以下幾種形式:

差分準(zhǔn)確度(Differential Accuracy):對(duì)模型在每輪對(duì)話后,針對(duì)用戶特征預(yù)測(cè)準(zhǔn)確度的提升予以獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)鼓勵(lì)模型通過提問或調(diào)整策略,逐步逼近用戶的真實(shí)偏好。差分對(duì)數(shù)準(zhǔn)確度(Differential Log Accuracy):基于預(yù)測(cè)準(zhǔn)確度的對(duì)數(shù)增量,強(qiáng)調(diào)預(yù)測(cè)精度的相對(duì)改進(jìn)。差分熵(Differential Entropy):通過減少模型對(duì)用戶特征的熵(不確定性),激勵(lì)模型探索更具信息量的對(duì)話策略。

這些內(nèi)在獎(jiǎng)勵(lì)通過潛在獎(jiǎng)勵(lì)塑形(Potential-based Reward Shaping)理論實(shí)現(xiàn),確保不會(huì)改變模型的最優(yōu)策略,同時(shí)顯著加速學(xué)習(xí)過程。

此外,研究還對(duì)比了非差分獎(jiǎng)勵(lì)(如直接基于預(yù)測(cè)準(zhǔn)確度的獎(jiǎng)勵(lì)),發(fā)現(xiàn)差分獎(jiǎng)勵(lì)能有效避免模型延長(zhǎng)對(duì)話以獲取更多獎(jiǎng)勵(lì)的傾向,從而保證對(duì)話的高效性和質(zhì)量。

評(píng)估方法:多維度的嚴(yán)苛檢驗(yàn)

為了全面衡量模型的性能,研究團(tuán)隊(duì)設(shè)計(jì)了兩種評(píng)估維度:個(gè)性化能力對(duì)話質(zhì)量。個(gè)性化能力通過比較模型對(duì)用戶特征的預(yù)測(cè)準(zhǔn)確度,以及是否能根據(jù)用戶偏好調(diào)整策略來評(píng)估。對(duì)話質(zhì)量則關(guān)注模型的表達(dá)清晰度、互動(dòng)性和整體流暢性。評(píng)估過程采用高性能的Gemini 1.5 Pro模型進(jìn)行自動(dòng)化評(píng)分,通過成對(duì)比較(Pairwise Comparison)計(jì)算模型的勝率,確保結(jié)果的客觀性。

此外,研究還引入了基線模型進(jìn)行對(duì)比,包括標(biāo)準(zhǔn)的多輪對(duì)話 RLHF模型(不含內(nèi)在獎(jiǎng)勵(lì))和一個(gè)基于決策樹的腳本化AI智能體。這些基線幫助驗(yàn)證了內(nèi)在獎(jiǎng)勵(lì)機(jī)制的獨(dú)特貢獻(xiàn)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明充分展示了“好奇心獎(jiǎng)勵(lì)”機(jī)制的強(qiáng)大潛力。

個(gè)性化能力方面

在教育對(duì)話場(chǎng)景中,加入內(nèi)在獎(jiǎng)勵(lì)的模型在個(gè)性化能力上顯著優(yōu)于基線模型。表1展示了不同獎(jiǎng)勵(lì)機(jī)制的勝率對(duì)比,所有基于準(zhǔn)確度的內(nèi)在獎(jiǎng)勵(lì)(DiffAcc、Acc、DiffLogAcc)均大幅超越了基線模型,其中DiffAcc的勝率高達(dá)75.25%。這表明,模型能夠更快速地識(shí)別學(xué)生的學(xué)習(xí)風(fēng)格,并調(diào)整教學(xué)策略,例如為喜歡講故事的學(xué)生設(shè)計(jì)敘事化的教學(xué)內(nèi)容。

表1:個(gè)性化方面兩兩比較的勝率百分比。在所有獎(jiǎng)勵(lì)類型中,本文提出的模型在進(jìn)行個(gè)性化對(duì)話方面均優(yōu)于基線模型

圖2:教育對(duì)話中的用戶建模表現(xiàn)。圖示對(duì)比了基線模型與引入DiffAcc獎(jiǎng)勵(lì)的模型在教育對(duì)話前三輪的用戶偏好預(yù)測(cè)準(zhǔn)確度。橫軸為訓(xùn)練步數(shù),縱軸為校準(zhǔn)后的預(yù)測(cè)準(zhǔn)確度。引入內(nèi)在獎(jiǎng)勵(lì)的模型在早期即展現(xiàn)出更強(qiáng)的用戶建模能力,而基線模型則依賴學(xué)生主動(dòng)表達(dá)偏好。

在健身推薦場(chǎng)景中,模型同樣表現(xiàn)出色。圖3展示了模型在多輪對(duì)話中逐步收斂到正確用戶類型的概率分布。例如,通過針對(duì)性地提問(如“您更喜歡戶外還是室內(nèi)運(yùn)動(dòng)?”),模型能夠快速鎖定用戶的生活方式和身體狀況,從而推薦最合適的鍛煉策略。相比之下,基線模型在復(fù)雜用戶建模任務(wù)中表現(xiàn)不佳,難以有效挖掘關(guān)鍵信息。

圖3:健身推薦中的用戶類型預(yù)測(cè)。圖示展示了在健身推薦場(chǎng)景中,模型通過多輪對(duì)話逐步提高對(duì)用戶類型的預(yù)測(cè)準(zhǔn)確度。橫軸為對(duì)話輪次,縱軸為預(yù)測(cè)概率分布,顯示模型逐漸收斂到正確的鍛煉策略。

對(duì)話質(zhì)量方面

對(duì)話質(zhì)量方面,研究發(fā)現(xiàn),基于差分對(duì)數(shù)準(zhǔn)確度(DiffLogAcc)的模型在教育對(duì)話中表現(xiàn)最佳,勝率達(dá)到57.5%,甚至超越了基線模型。這表明,內(nèi)在獎(jiǎng)勵(lì)不僅提升了個(gè)性化能力,還在一定程度上優(yōu)化了對(duì)話的流暢性和用戶體驗(yàn)。相比之下,非差分獎(jiǎng)勵(lì)(如Acc)由于鼓勵(lì)模型延長(zhǎng)對(duì)話,略微降低了對(duì)話質(zhì)量,凸顯了差分獎(jiǎng)勵(lì)設(shè)計(jì)的優(yōu)越性。

圖4:差分與非差分獎(jiǎng)勵(lì)對(duì)對(duì)話質(zhì)量和長(zhǎng)度的影響。非差分獎(jiǎng)勵(lì)導(dǎo)致模型傾向于延長(zhǎng)對(duì)話,而差分獎(jiǎng)勵(lì)有效控制了對(duì)話長(zhǎng)度,提升了效率和質(zhì)量(具有更高的任務(wù)完成度)。

獎(jiǎng)勵(lì)設(shè)計(jì)的洞察

研究還深入分析了不同獎(jiǎng)勵(lì)設(shè)計(jì)的影響:

差分 vs. 非差分獎(jiǎng)勵(lì):差分獎(jiǎng)勵(lì)通過只獎(jiǎng)勵(lì)信念更新的增量,避免了AI無意義地延長(zhǎng)對(duì)話,確保對(duì)話質(zhì)量。準(zhǔn)確度 vs. 熵獎(jiǎng)勵(lì):當(dāng)外部獎(jiǎng)勵(lì)未考慮用戶差異時(shí),準(zhǔn)確度獎(jiǎng)勵(lì)(基于真實(shí)用戶類型)表現(xiàn)更穩(wěn)定。熵獎(jiǎng)勵(lì)在某些用戶類型上表現(xiàn)優(yōu)異,但在其他類型上可能因“控制行為”(強(qiáng)行引導(dǎo)用戶表現(xiàn)出某種類型)而失敗。未來展望:個(gè)性化AI的無限可能

這項(xiàng)研究為對(duì)話AI的個(gè)性化發(fā)展開辟了新的道路。通過“好奇心獎(jiǎng)勵(lì)”,模型不僅能更精準(zhǔn)地理解用戶,還能在交互中展現(xiàn)出更自然的適應(yīng)性和親和力。然而,研究也指出了當(dāng)前方法的局限性,例如對(duì)復(fù)雜用戶特征的建模仍需改進(jìn),以及對(duì)用戶交互質(zhì)量的依賴可能限制其在某些場(chǎng)景中的表現(xiàn)。

未來,研究團(tuán)隊(duì)計(jì)劃探索更復(fù)雜的對(duì)話場(chǎng)景,例如開放式閑聊或多方交互,以進(jìn)一步驗(yàn)證方法的泛化能力。同時(shí),結(jié)合零樣本用戶畫像(Zero-shot User Profiling)和隱私保護(hù)技術(shù),將有助于實(shí)現(xiàn)更安全、更高效的個(gè)性化體驗(yàn)?梢灶A(yù)見,隨著這些技術(shù)的不斷完善,未來的對(duì)話AI將更加像一位懂你的“知心伙伴”,在教育、醫(yī)療、娛樂等多個(gè)領(lǐng)域?yàn)橛脩魩砬八从械谋憬菖c溫暖。

結(jié)語

從“好奇心獎(jiǎng)勵(lì)”的提出,到教育和健身場(chǎng)景的成功驗(yàn)證,這項(xiàng)研究不僅展示了AI在個(gè)性化對(duì)話領(lǐng)域的巨大潛力,也為我們描繪了一個(gè)更加人性化的智能交互未來。正如研究團(tuán)隊(duì)所言:“一個(gè)好的對(duì)話代理,應(yīng)該將每一次交互都視為了解用戶的寶貴機(jī)會(huì)。”(We posit that a good conversational agent should treat the interaction itself as an opportunity to learn about the user)

讓我們期待,這份“好奇心”將如何繼續(xù)點(diǎn)亮AI與人類溝通的星空!也歡迎大家在評(píng)論區(qū)聊聊你對(duì)這項(xiàng)工作的看法~

-- 完 --

       原文標(biāo)題 : AI妲己來了?看看谷歌DeepMind等團(tuán)隊(duì)如何通過“好奇心獎(jiǎng)勵(lì)”機(jī)制,讓AI在多輪對(duì)話中主動(dòng)探索用戶特質(zhì)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)