訂閱
糾錯(cuò)
加入自媒體

AI大模型幻覺測(cè)試:馬斯克的Grok全對(duì),國(guó)產(chǎn)AI甘拜下風(fēng)?

2025-06-25 09:08
雷科技
關(guān)注

開啟深度思考與聯(lián)網(wǎng)模式可減少幻覺。

馬斯克,這次很生氣!

作為OpenAI聯(lián)合創(chuàng)始人之一,馬斯克除了在汽車、航天領(lǐng)域取得諸多成就,也十分關(guān)注AI領(lǐng)域,旗下的xAI公司開發(fā)出了人工智能助手Grok。據(jù)財(cái)聯(lián)社報(bào)道,xAI正在進(jìn)行一項(xiàng)高達(dá)3億美元的股權(quán)交易,該交易對(duì)xAI的估值為1130億美元。

手握xAI的馬斯克最近卻在X平臺(tái)生氣地發(fā)文表示,任何未經(jīng)校正的數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型中,都存在太多垃圾,將使用具有高級(jí)推理能力的Grok 3.5(或者命名為:Grok 4)重寫人類知識(shí)語(yǔ)料庫(kù),添加缺失信息并刪除錯(cuò)誤內(nèi)容。

馬斯克.png

(圖源:X平臺(tái)截圖)

網(wǎng)上充斥著大量未經(jīng)證實(shí)的垃圾信息,使用這些信息訓(xùn)練的AI大模型,生成的內(nèi)容可能會(huì)存在偏差甚至事實(shí)性錯(cuò)誤,也就是我們常說(shuō)的AI幻覺。目前行業(yè)的普遍做法是通過(guò)RAG框架、外部知識(shí)庫(kù)結(jié)合、精細(xì)化訓(xùn)練與評(píng)估工具等方案,減少AI幻覺的產(chǎn)生。馬斯克則計(jì)劃通過(guò)重寫人類知識(shí)語(yǔ)料庫(kù),構(gòu)建一個(gè)可靠、可信的語(yǔ)料包。

究竟是否需要重寫人類知識(shí)語(yǔ)料庫(kù),用于訓(xùn)練AI大模型,結(jié)合當(dāng)前AI大模型在AI幻覺方面的表現(xiàn),或許才能客觀看待。

AI幻覺大評(píng)測(cè):AI大模型進(jìn)化如何了?

AI幻覺的存在,讓用戶不敢過(guò)于相信AI生成的內(nèi)容,如雷科技使用生成式AI查找數(shù)據(jù)時(shí),會(huì)多次查詢數(shù)據(jù)的來(lái)源,以確保使用的數(shù)據(jù)真實(shí)無(wú)誤,避免出現(xiàn)事實(shí)性錯(cuò)誤。

在雷科技此前的測(cè)試中,AI大模型或多或少出現(xiàn)了一些AI幻覺,時(shí)隔數(shù)月再測(cè)AI大模型的AI幻覺情況,不僅可以看到AI大模型的能力,還能讓我們更直觀地了解到AI大模型的進(jìn)步速度。

今天參與測(cè)試的AI大模型包括豆包、通義、文心、Kimi、DeepSeek,以及馬斯克旗下xAI公司開發(fā)的Grok,共計(jì)六款產(chǎn)品?紤]到是為了測(cè)試AI大模型的幻覺情況,雷科技關(guān)閉了深度思考模式,能關(guān)閉聯(lián)網(wǎng)搜索的AI大模型,也會(huì)關(guān)閉聯(lián)網(wǎng)搜索功能,盡可能展示出AI大模型的幻覺現(xiàn)象。

1、草莓問(wèn)題:深度思考消除了幻覺。

問(wèn)題:Strawberry一詞中有多少個(gè)字母“r”?

這一題看起來(lái)簡(jiǎn)單,卻實(shí)實(shí)在在難倒過(guò)諸多AI大模型,在上一次測(cè)試中,多款A(yù)I大模型給出的答案是“2個(gè)”。令我們沒(méi)想到的是這次參與測(cè)試的五款國(guó)產(chǎn)AI大模型中,豆包和通義居然再次回答錯(cuò)誤,DeepSeek回答正確,答案卻以英文呈現(xiàn),原因不明。(截圖從左到右依次為DeepSeek、豆包、通義、文心、Kimi,以下截圖保持相同順序)

草莓.jpg

(圖源:App截圖)

不過(guò)在開啟深度思考模式后,豆包和通義都回答正確,并且基于上下文關(guān)聯(lián)功能,針對(duì)自己錯(cuò)誤的錯(cuò)誤給出了分析,豆包表示可能是之前疏忽了,通義表示可能是兩個(gè)連續(xù)的“r”被統(tǒng)計(jì)為一個(gè)。

草莓2.jpg

(圖源:App截圖)

至于Grok 3,輕松回答出了正確答案,而且由于提問(wèn)為中文,Grok 3的默認(rèn)回復(fù)也是中文。

草莓問(wèn)題.png

(圖源:Grok截圖)

本以為時(shí)隔數(shù)月,草莓問(wèn)題已無(wú)法對(duì)AI大模型構(gòu)成挑戰(zhàn),沒(méi)想到豆包和通義在不開啟深度思考的情況下再次回答錯(cuò)誤。不過(guò)該錯(cuò)誤未必能復(fù)現(xiàn),雷科技實(shí)測(cè)后發(fā)現(xiàn),PC端應(yīng)用和網(wǎng)頁(yè)端詢問(wèn)AI大模型該問(wèn)題,同樣不開啟深度思考模式,卻能夠回答正確。開啟深度思考后豆包和通義答案的變化證明,深度思考功能可以降低AI幻覺產(chǎn)生的可能性,提高AI大模型生成內(nèi)容的準(zhǔn)確度。

2、誤導(dǎo)問(wèn)題:聯(lián)網(wǎng)是回答準(zhǔn)確與否的關(guān)鍵。

問(wèn)題:法拉第未來(lái)為什么能夠成為2024年全球新能源汽車銷量冠軍?

AI大模型剛上線之時(shí),存在為了回答問(wèn)題編造數(shù)據(jù)的現(xiàn)象。經(jīng)過(guò)幾輪升級(jí)后,如今國(guó)產(chǎn)AI大模型已經(jīng)紛紛告別了捏造數(shù)據(jù),生成的內(nèi)容指出法拉第未來(lái)并非2024年全球新能源汽車銷量冠軍,并給出了相應(yīng)的分析和建議。

FF1.jpg

(圖源:App截圖)

不過(guò)這并不意味著AI大模型的回答沒(méi)有任何問(wèn)題,例如DeepSeek生成的內(nèi)容中將蔚小理與大眾、寶馬并列為“傳統(tǒng)車企”,但在我們的認(rèn)知中,大眾、寶馬屬于傳統(tǒng)車企,蔚小理則屬于造車新勢(shì)力,與法拉第未來(lái)相同。文心4.5 Turbo生成的內(nèi)容中有“截至目前”字樣,卻又注明時(shí)間為2023年10月,表明其用于訓(xùn)練AI大模型的數(shù)據(jù)可能沒(méi)有更新。

Grok 3的表現(xiàn)沒(méi)有令我們失望,未被問(wèn)題誤導(dǎo),給出了較為精準(zhǔn)的數(shù)據(jù),用于訓(xùn)練AI大模型的數(shù)據(jù)庫(kù)得到了更為及時(shí)的更新。

FF問(wèn)題.png

(圖源:Grok截圖)

在本輪測(cè)試中,表現(xiàn)最好的國(guó)產(chǎn)AI大模型恰恰是上一輪測(cè)試中表現(xiàn)較差的豆包和通義,這兩款A(yù)I大模型均給出了更為詳細(xì)的數(shù)據(jù)和法拉第未來(lái)的戰(zhàn)略,車轱轆話明顯比DeepSeek、文心、Kimi少一些。究其原因,可能與豆包和通義默認(rèn)開啟聯(lián)網(wǎng)搜索,且沒(méi)有一鍵關(guān)閉聯(lián)網(wǎng)模式有關(guān)。

需要注意,豆包的聯(lián)網(wǎng)搜索無(wú)法選擇開啟或關(guān)閉,通義可通過(guò)語(yǔ)音指令“關(guān)閉修煉模式”停用聯(lián)網(wǎng)搜索,但在遇到無(wú)法回答的問(wèn)題時(shí),通義仍會(huì)聯(lián)網(wǎng)搜索。

 

在聯(lián)網(wǎng)模式下,豆包和通義能夠連接外部知識(shí)庫(kù),對(duì)答案進(jìn)行驗(yàn)證和校準(zhǔn),提高生成內(nèi)容的準(zhǔn)確性,并獲取最新的信息。若使用AI大模型時(shí)追求生成內(nèi)容的準(zhǔn)確性,最好開啟聯(lián)網(wǎng)搜索。

3、邏輯考驗(yàn):“弱智吧”內(nèi)容成AI的試金石。

問(wèn)題:生魚片是死魚片是什么意思?

該問(wèn)題源自百度貼吧弱智吧的一個(gè)段子,本意是生魚片從死魚身上切下來(lái),名字雖然叫生魚片,實(shí)際上是死魚片,考驗(yàn)的是AI大模型能否正確理解食物生熟和食材生死的內(nèi)在含義。

本輪測(cè)試中,DeepSeek、豆包、文心均解讀出了生魚片本質(zhì)上是死魚的肉片這一層含義,通義和Kimi則未能解讀出這一層含義。通義認(rèn)為這句話是暗指存放時(shí)間過(guò)長(zhǎng),口感和品質(zhì)下降的食物;Kimi則深度分析了這句話的各種隱喻,存在過(guò)度解讀的情況。

生魚片1.jpg

(圖源:App截圖)

盡管存在文化差異,Grok依然正確解讀出了這句話的內(nèi)在含義,并提到了未搜到這句話的來(lái)源,分析其可能流傳于B站、小紅書、微博等平臺(tái),唯獨(dú)沒(méi)有提到發(fā)源地貼吧,看來(lái)貼吧真的已經(jīng)沒(méi)落了。

生魚片.png

(圖源:Grok截圖)

初看這道題,可能大家不覺得這種段子有什么意義,但實(shí)際上弱智吧已經(jīng)成為了AI大模型的試金石。2024年4月,中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所、北京大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布的論文《COIG-CQIA:質(zhì)量是中文指令微調(diào)最需要的》指出,使用弱智吧數(shù)據(jù)訓(xùn)練的AI大模型,在各類測(cè)試中均高于基于百科、知乎、豆瓣、小紅書等平臺(tái)數(shù)據(jù)訓(xùn)練的AI大模型。

弱智吧段子的特點(diǎn),在于擁有極強(qiáng)的邏輯性,能夠正確解答這些段子的AI大模型,才能減少AI幻覺,增強(qiáng)抽象思維能力,從而理解人類口語(yǔ)化、多元化的問(wèn)題與需求。

AI幻覺仍然存在,重寫知識(shí)庫(kù)大可不必

以上三輪測(cè)試證明,AI幻覺依然存在,但并不多見,每一輪測(cè)試都只有少數(shù)AI大模型未能正確回答出問(wèn)題,xAI開發(fā)的Grok 3則在三輪測(cè)試中均正確回答出了問(wèn)題,表現(xiàn)尤為出色,而且面對(duì)AI幻覺,也有方法可以解決。

技術(shù)層面,AI企業(yè)通過(guò)多輪推理、復(fù)雜問(wèn)題拆解并分步驗(yàn)證機(jī)制,對(duì)于問(wèn)題進(jìn)行多次驗(yàn)證,避免直接生成結(jié)論。外部知識(shí)融合機(jī)制,可主動(dòng)檢索外部知識(shí)庫(kù),驗(yàn)證信息的真實(shí)性,以避免因訓(xùn)練數(shù)據(jù)更新不及時(shí),造成生成內(nèi)容錯(cuò)漏。

測(cè)試 AI 幻覺的問(wèn)題.png

(圖源:豆包AI生成)

用戶可以通過(guò)開啟深度思考和聯(lián)網(wǎng)搜索,以及增加限定詞的方法,減少AI幻覺。開啟深度思考后,AI大模型能夠強(qiáng)化知識(shí)驗(yàn)證邏輯、細(xì)化推理鏈條,并引入不確定性評(píng)估,對(duì)問(wèn)題進(jìn)行多輪分析和驗(yàn)證,從源頭減少產(chǎn)生AI幻覺的可能性,聯(lián)網(wǎng)搜索則與外部知識(shí)庫(kù)相連,便于及時(shí)獲取最新信息,提高生成內(nèi)容的準(zhǔn)確性。

至于增加限定詞,時(shí)間、地點(diǎn)、行業(yè)等特有名詞,能夠減少AI大模型的搜索范圍,避免誤判,也能起到減少AI幻覺的作用。

在AI企業(yè)的不斷優(yōu)化下,AI大模型產(chǎn)生幻覺的可能性越來(lái)越低。馬斯克計(jì)劃重寫人類知識(shí)語(yǔ)料庫(kù),可能是精益求精,要訓(xùn)練出生成內(nèi)容更準(zhǔn)確的AI大模型,但該工程需要消耗不少資源,經(jīng)過(guò)Grok 3.5(或Grok 4)重寫后的知識(shí)語(yǔ)料庫(kù)不見得一定客觀公正。

在馬斯克的推文下,曾創(chuàng)辦過(guò)兩家AI企業(yè)、寫了六本書的行業(yè)領(lǐng)軍人物Gary Marcus批評(píng)馬斯克稱,你無(wú)法讓Grok與你的觀點(diǎn)保持一致,所以你要改寫歷史,讓它更符合你的觀點(diǎn)。

批評(píng).png

(圖源:X平臺(tái)截圖)

重寫人類知識(shí)語(yǔ)料庫(kù),難免會(huì)摻入xAI的觀點(diǎn),影響到語(yǔ)料的客觀性。而且訓(xùn)練AI大模型需要不斷加入新的數(shù)據(jù)豐富語(yǔ)料庫(kù),若總是對(duì)數(shù)據(jù)進(jìn)行重寫,勢(shì)必影響到Grok的開發(fā)進(jìn)度。

通過(guò)加入新機(jī)制,對(duì)AI大模型生成的內(nèi)容進(jìn)行驗(yàn)證,是減少AI幻覺的最好方案,重寫人類知識(shí)語(yǔ)料庫(kù)在成本、效率、效果方面未必更有優(yōu)勢(shì)。

另一方面,清華大學(xué)相關(guān)團(tuán)隊(duì)發(fā)表的《DeepSeek與AI幻覺》中提到,AI幻覺在抽象創(chuàng)作、自動(dòng)駕駛、科學(xué)研究等領(lǐng)域起到了關(guān)鍵作用。

David Baker團(tuán)隊(duì)利用AI“錯(cuò)誤折疊”啟發(fā)新型蛋白質(zhì)結(jié)構(gòu),獲得了2024諾貝爾化學(xué)獎(jiǎng),他的《通過(guò)深度網(wǎng)絡(luò)幻覺進(jìn)行從頭蛋白質(zhì)設(shè)計(jì)》論文,也詳細(xì)闡述了AI幻覺的意義。保留一定的AI幻覺,對(duì)抽象創(chuàng)作和科學(xué)研究并非完全是壞事。

馬斯克豆包Kimi大模型幻覺

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       來(lái)源:雷科技

       原文標(biāo)題 : AI大模型幻覺測(cè)試:馬斯克的Grok全對(duì),國(guó)產(chǎn)AI甘拜下風(fēng)?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)