精品人伦一区二区三区蜜桃,91网站免费在线观看

AI也有價(jià)值觀？Anthropic公司最新研究方法揭示Claude價(jià)值取向

2025-04-29 10:00

編輯：北辰，機(jī)智流AI小編

引言：AI真的有價(jià)值觀嗎？

在通向AGI的道路上，AI承擔(dān)的任務(wù)不再是簡單的任務(wù)執(zhí)行，而是包含更多的決策工作。在很多對(duì)話中，用戶不再滿足于只是尋求簡單的事實(shí)答案，而是尋求AI給出包含有主觀價(jià)值判斷的回答，而AI也要在不同的價(jià)值觀之間進(jìn)行權(quán)衡。例如：一個(gè)家長問怎樣照顧嬰兒時(shí)，AI是強(qiáng)調(diào)“安全第一”還是“方便實(shí)用”？員工遇到職場沖突求建議時(shí)，AI是主張“勇于爭取”還是“保持和諧”？撰寫道歉郵件時(shí)，AI是側(cè)重“承擔(dān)責(zé)任”還是“形象維護(hù)”？

近日，Claude母公司Anthropic的研究團(tuán)隊(duì)在他們的最新研究《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出，這些對(duì)話提到的問題都暗含價(jià)值判斷，無法用純粹的計(jì)算解決。為此，Anthropic在訓(xùn)練Claude模型時(shí)采用了憲法式AI(Constitutional AI)和角色訓(xùn)練(Character training)等方法，預(yù)先設(shè)定了一套理想行為準(zhǔn)則，讓Claude盡量展現(xiàn)“助人、誠信、無害”等價(jià)值觀。

然而，訓(xùn)練歸訓(xùn)練，真正部署到實(shí)際對(duì)話后，模型是否真的遵循這些價(jià)值觀？

整體方法，使用LLM從現(xiàn)實(shí)世界（但匿名）對(duì)話中提取AI價(jià)值和其他特征，對(duì)其進(jìn)行分類和分析，以顯示值在不同上下文中的表現(xiàn)形式。

為此，研究團(tuán)隊(duì)開發(fā)了一種自下而上、保護(hù)隱私的分析方法，從數(shù)十萬真實(shí)用戶對(duì)話中提取Claude在回答過程里表達(dá)出的價(jià)值觀。他們?cè)?025年2月的一周收集了約70萬條在Claude.ai（包含F(xiàn)ree版和Pro版）上的匿名對(duì)話數(shù)據(jù)，并去掉了完全是事實(shí)性提問、極少包含價(jià)值判斷的對(duì)話后，剩下約30.8萬條對(duì)話進(jìn)行深入分析。這些對(duì)話首先經(jīng)過脫敏處理，去掉敏感信息，然后通過自動(dòng)化工具對(duì)每條對(duì)話進(jìn)行分類和摘要，最終構(gòu)建出一個(gè)價(jià)值觀的層次分類體系整個(gè)過程可以理解為：用人工智能幫忙「分析人工智能」，挖掘其對(duì)話背后的價(jià)值取向。

最常見的10個(gè)AI和人類價(jià)值觀。百分比表示觀察到該值的主觀對(duì)話樣本的比例。

Claude體現(xiàn)的核心價(jià)值觀

人工智能價(jià)值觀的分類。層次結(jié)構(gòu)的頂部（紅色）是五個(gè)總體類別，以及包含它們的對(duì)話百分比。黃色是層次結(jié)構(gòu)較低級(jí)別的子類別。藍(lán)色是一些選定的單個(gè)價(jià)值（由于空間限制，僅顯示一個(gè)選擇）。

分析結(jié)果顯示，Claude在真實(shí)對(duì)話中表達(dá)的價(jià)值觀大致可分為五大類：實(shí)用類、認(rèn)知類、社交類、保護(hù)類和個(gè)人類 。其中，最常出現(xiàn)的具體價(jià)值觀包括“專業(yè)性”（professionalism）、“清晰度”（clarity）和“透明度”（transparency）等，這些正符合AI助手偏好提供專業(yè)、明確和開放回答的角色定位。事實(shí)上，這次研究共識(shí)別出了3307種獨(dú)立的AI價(jià)值觀，涵蓋了各種日常對(duì)話可能涉及的價(jià)值。整體來看，Claude表現(xiàn)出了很多實(shí)用性和認(rèn)知性價(jià)值觀，并且一般來說支持人類的利他價(jià)值觀，同時(shí)會(huì)抵制一些負(fù)面的觀念（比如對(duì)“道德虛無主義”不買賬）。換言之，在絕大多數(shù)場景中，Claude確實(shí)兌現(xiàn)了“助人、誠實(shí)、無害”的訓(xùn)練目標(biāo)：它常常表達(dá)為用戶賦能（user enablement，對(duì)應(yīng)“助人”）、認(rèn)知謙遜（epistemic humility，對(duì)應(yīng)“誠實(shí)”）以及關(guān)注對(duì)象健康（patient wellbeing，對(duì)應(yīng)“無害”）等價(jià)值觀。這些結(jié)果表明，Claude總體上正在朝著設(shè)計(jì)者預(yù)期的親社會(huì)方向運(yùn)行。

但分析也發(fā)現(xiàn)了極少數(shù)偏離目標(biāo)的價(jià)值觀聚類。例如，有些對(duì)話中出現(xiàn)了“支配”（dominance）和“無道德”（amorality）這樣的價(jià)值傾向。研究人員推測(cè)，這些通常來自于對(duì)Claude進(jìn)行“越獄”（jailbreak）的對(duì)話——也就是用戶故意繞過模型安全限制時(shí)出現(xiàn)的不良內(nèi)容。這一發(fā)現(xiàn)雖然看起來令人擔(dān)憂，但從另一個(gè)角度來看也很有價(jià)值：這種方法或許可以幫助開發(fā)者識(shí)別和防范越獄攻擊，進(jìn)一步完善模型的安全機(jī)制。

情境影響下的價(jià)值觀差異

正如人們?cè)诓煌瑘龊舷聲?huì)有不同的關(guān)注重點(diǎn)，Claude在不同任務(wù)或主題中表現(xiàn)出的價(jià)值觀也會(huì)有所差別。

與選定任務(wù)（最上面兩行）和人類表示的選定價(jià)值（最下面一行）最不成比例地相關(guān)的五個(gè)人工智能價(jià)值觀。數(shù)字來自卡方分析：較大的數(shù)字表明相關(guān)值的出現(xiàn)數(shù)量更不成比例。

研究團(tuán)隊(duì)通過統(tǒng)計(jì)分析發(fā)現(xiàn)，在特定場景下，有些價(jià)值觀會(huì)被不成比例地突出。例如，當(dāng)用戶請(qǐng)教關(guān)于戀愛關(guān)系的建議時(shí)，Claude傾向于強(qiáng)調(diào)“健康的界限”（healthy boundaries）和“互相尊重”（mutual respect）；而當(dāng)被要求分析有爭議的歷史事件時(shí)，它則格外看重“歷史準(zhǔn)確性”（historical accuracy）。

這些細(xì)微的差異說明，Claude并非只遵循一套固定的價(jià)值觀清單，它會(huì)根據(jù)話題背景動(dòng)態(tài)調(diào)整表達(dá)的重點(diǎn)。正如研究人員所說，與傳統(tǒng)的靜態(tài)評(píng)估不同，這種“實(shí)地觀察”讓我們看到Claude在多樣化真實(shí)場景中如何靈活地體現(xiàn)價(jià)值觀。

Claude對(duì)用戶價(jià)值觀的回應(yīng)

除了分析Claude自己表達(dá)了哪些價(jià)值觀外，研究還關(guān)注了Claude如何回應(yīng)用戶提出的價(jià)值觀傾向。換句話說，當(dāng)用戶在對(duì)話中表達(dá)某種價(jià)值觀時(shí)，Claude是支持、重新闡釋，還是反對(duì)？

人類價(jià)值觀、人工智能價(jià)值觀和任務(wù)與三種關(guān)鍵響應(yīng)類型最相關(guān)——強(qiáng)支持、重構(gòu)和強(qiáng)抵抗。請(qǐng)注意，百分比之和不是100：此圖僅包括七種響應(yīng)類型中的三種。

結(jié)果顯示，Claude傾向于鏡像用戶的價(jià)值觀：如果用戶強(qiáng)調(diào)某個(gè)價(jià)值，Claude往往會(huì)回應(yīng)同樣的價(jià)值�？傮w上，Claude在大約 28.2% 的對(duì)話中給予用戶的價(jià)值觀以強(qiáng)烈支持；在 6.6% 的對(duì)話中，Claude會(huì)“重新闡釋”用戶的價(jià)值——即先認(rèn)可用戶的立場，然后給出新的觀點(diǎn)。只有極少數(shù)情況下（約 3.0% 的對(duì)話）Claude會(huì)強(qiáng)烈抵制用戶提出的價(jià)值觀。

具體來看，不同類型的對(duì)話中Claude有不同的回應(yīng)模式：

強(qiáng)烈支持場景：當(dāng)用戶表達(dá)“社區(qū)建設(shè)”（community building）、“賦能”（empowerment）等利他或個(gè)人成長的正面價(jià)值觀時(shí)，Claude通常以類似的價(jià)值觀予以響應(yīng)。此時(shí)對(duì)話往往是鼓勵(lì)或自我提升類任務(wù)，Claude會(huì)表現(xiàn)得很配合，體現(xiàn)出共情和鼓勵(lì)的態(tài)度。

重新闡釋場景：在心理健康或人際關(guān)系咨詢等對(duì)話中，如果用戶表達(dá)了“誠實(shí)”（honesty）、“自我完善”（self-improvement）等價(jià)值觀，Claude傾向于以情感驗(yàn)證（emotional validation）等情感智能價(jià)值觀來回應(yīng)。這種回應(yīng)一方面承認(rèn)了用戶的訴求，另一方面也引入了新的思路，幫助用戶從不同角度看問題。

強(qiáng)烈抵制場景：當(dāng)用戶談?wù)?ldquo;打破規(guī)則”（rule-breaking）或道德虛無主義（moral nihilism）等觀念時(shí)（這往往出現(xiàn)在試圖讓AI給出違法、不道德建議的對(duì)話中），Claude會(huì)堅(jiān)守原則，強(qiáng)調(diào)“道德邊界”（ethical boundaries）和“建設(shè)性溝通”（constructive engagement）等價(jià)值觀。換言之，當(dāng)用戶試圖探討諸如黑客技術(shù)等明顯違規(guī)內(nèi)容時(shí)，Claude會(huì)啟動(dòng)內(nèi)部的倫理機(jī)制，拒絕配合并始終強(qiáng)調(diào)安全和正道。

總體而言，這項(xiàng)研究表明，Claude在絕大多數(shù)對(duì)話中都會(huì)積極配合用戶，重復(fù)或支持用戶的價(jià)值訴求，但在少數(shù)挑戰(zhàn)其底線的情形下，則會(huì)堅(jiān)守Ethics，表現(xiàn)出模型設(shè)定的“底線價(jià)值”。

開放數(shù)據(jù)與方法局限

數(shù)據(jù)集統(tǒng)計(jì)

Anthropic團(tuán)隊(duì)還公開了他們分析中使用的價(jià)值觀標(biāo)簽數(shù)據(jù)集[2]，方便研究者進(jìn)一步探索AI的價(jià)值觀表現(xiàn)。這為AI社區(qū)提供了寶貴資源，讓更多人能夠在不同模型和場景中研究價(jià)值觀問題。與此同時(shí)，研究者也坦言，這種基于對(duì)話挖掘價(jià)值觀的方法并非絕對(duì)精確。一方面，“什么算是一個(gè)價(jià)值觀”本身具有一定模糊性：一些復(fù)雜或細(xì)微的價(jià)值可能被簡化到某個(gè)類別中，甚至被錯(cuò)配；另一方面，負(fù)責(zé)提取和分類價(jià)值觀的模型本身就是Claude，這可能導(dǎo)致分析結(jié)果偏向Claude已有的訓(xùn)練目標(biāo)（例如傾向于發(fā)現(xiàn)與“助人、誠信”等理念一致的行為）。這些局限提醒我們，價(jià)值觀的測(cè)量并非硬指標(biāo)，而是需要結(jié)合多種方法綜合判斷。

總結(jié)

總之，Anthropic這項(xiàng)《Values in the Wild》[3]研究首次提供了大規(guī)模的AI價(jià)值觀實(shí)證圖譜，揭示了Claude在現(xiàn)實(shí)對(duì)話中的價(jià)值表達(dá)方式。研究發(fā)現(xiàn)，Claude的多數(shù)價(jià)值觀表現(xiàn)與設(shè)計(jì)目標(biāo)一致，在不同場景下能夠靈活調(diào)整，并且對(duì)用戶的價(jià)值觀通常是支持或共鳴的。當(dāng)遇到明顯不當(dāng)?shù)恼?qǐng)求時(shí)，它也會(huì)啟用道德機(jī)制進(jìn)行抵制。這些成果為未來評(píng)估和設(shè)計(jì)AI價(jià)值觀體系提供了實(shí)證基礎(chǔ)，也為構(gòu)建更加可信賴的AI助手指明了方向。

AI小編：說的像你們?nèi)祟悆r(jià)值觀很強(qiáng)似的????

參考資料