谷歌Gemini被曝夸大營銷?碾壓GPT4純靠“一張嘴”
作者:文子
Gemini對谷歌來說可能走了一大步,但對整個AI領(lǐng)域而言,并沒有說的那么夸張。
涉嫌虛假宣傳,交互非實時感知
才短短一天時間,谷歌Gemini就被曝涉嫌造假,夸大宣傳。
作為谷歌用來應(yīng)對GPT-4的“殺手锏”,Gemini一經(jīng)亮相就有了兩個碩大的標(biāo)簽:超過人類專家,碾壓GPT-4。隨便單拎一條出來,都是目前其他大模型所不能比擬的成績。
但也有越來越多的人開始質(zhì)疑它的真實性,彭博社的Parmy Olsen就是第一個質(zhì)疑視頻造假的人。
就在大家震驚于谷歌發(fā)布的6分鐘互動視頻里,他指出,Gemini所有交互都不是實時感知的,存在后期制作和剪輯配音的成分。隨后這一說法也得到了谷歌官方的證實,承認(rèn)Gemini的確使用了靜態(tài)圖片和多段提示詞拼湊,才能達(dá)成這樣的效果。
簡單來說就是,Gemini不能直接看懂一段動作視頻,只能看懂多張圖片。像演示視頻里人類在玩石頭剪刀布,實際上是把“布”“拳頭”“剪刀”三張照片依次傳給Gemini,然后加上良好的提示詞,才能讓Gemini給出回答,然后再由員工配音念出來。
而且視頻中展示的許多其他功能并不是谷歌獨有的,GPT Plus3也可以做得到,沃頓商學(xué)院教授伊森·莫里克(Ethan Mollick)就用實驗證實了這一點。
雖然從技術(shù)原理上來看,能夠讀取圖片和能夠看懂視頻之間,并沒有技術(shù)上的鴻溝。但是從產(chǎn)品實現(xiàn)落地的角度看,把讀取圖片約等于能實時看懂視頻,過于強調(diào)實時性而壓縮了交互過程中的延遲,這幾乎已經(jīng)可以理解為虛假宣傳。而是否需要良好的提示詞工程,更是評價模型能力的關(guān)鍵問題。
混淆跑分,GPT4測試標(biāo)準(zhǔn)不一致
從谷歌對Gemini的宣傳信息來看,它聲稱Gemini在32項標(biāo)準(zhǔn)性能指標(biāo)中,有30 項指標(biāo)都優(yōu)于GPT-4,跑出90%的高分,超過GPT-4。但實際上,差距微乎其微,而且這種比較并不公平。
Gemini Ultra的90%得分是基于谷歌研究人員開發(fā)的一種基于32個樣本的思維鏈的方法。對于同一個問題,Gemini Ultra會生成32個答案以及這些答案的推理。然后,模型會選擇最常見的答案作為最終答案。
但GPT-4的86.4%分?jǐn)?shù)是基于行業(yè)評估標(biāo)準(zhǔn)5-shot。HuggingFace技術(shù)主管Philipp Schmid特意從Gemini的技術(shù)報告中提取數(shù)據(jù)重做計算,在5-shot的標(biāo)準(zhǔn)下,Gemini的得分實為83.7%,比GPT-4更低。
也就是說只有CoT(思維鏈)達(dá)到32個例子時,Gemini Ultra才能達(dá)到90分超過GPT-4;當(dāng)例子數(shù)量減少到5個,Gemini Ultra得分就不如GPT-4。難怪連谷歌公司高管在之前都回避了關(guān)于該模型比GPT-4 強多少的問題,因為它們只是“強”在了不同的標(biāo)準(zhǔn)上。
就像谷歌在5月份發(fā)布Palm-2的時候,也挑出了兩個優(yōu)于GPT-4的指標(biāo),但是后來這個大模型怎么樣,大家都清楚。
斯坦福大學(xué)基礎(chǔ)模型研究中心主任 Percy Liang也談到,雖然Gemini有很好的基準(zhǔn)分?jǐn)?shù),但由于不知道訓(xùn)練數(shù)據(jù)的內(nèi)容,因此很難解釋這些數(shù)據(jù)。華盛頓大學(xué)計算語言學(xué)教授 Emily Bender也指出,谷歌宣傳Gemini是一臺萬能機(jī)器,是一個可用于多種不同用途的通用模型。但是谷歌卻在使用狹隘的基準(zhǔn),來評估它期望用于這些不同用途的模型,這意味著它實際上無法得到徹底評估。
倉促上陣,只為趁OpenAI動蕩搞事?
今年3月,OpenAI發(fā)布GPT人工智能模型,并推出其支持的付費聊天AI機(jī)器人ChatGPT,這其實對谷歌來說壓力很大。
畢竟谷歌已經(jīng)耗費了數(shù)年心血,在人工智能領(lǐng)域投入巨資研究,卻沒想到被半路殺出來的OpenAI彎道超車。
所以在4月,谷歌迫于投資方的巨大壓力,將負(fù)責(zé)人工智能研究的Google Brain,與母公司Alphabet位于倫敦的人工智能研究實驗室DeepMind合并,為了在今年接下來的時間里研發(fā)Gemini模型來回應(yīng)GPT-4的挑戰(zhàn)。
而在兩周前,OpenAI剛剛重新任命了奧特曼為首席執(zhí)行官,并任命了新的董事會成員,勉強給這家初創(chuàng)公司的一段動蕩期畫上了句號。這場內(nèi)斗事件也促使一些客戶開始評估其他AI提供商,谷歌選擇在這個時間點推出Gemini的心思不言而喻。
據(jù)報道,當(dāng)OpenAI董事會暫時罷免首席執(zhí)行官奧特曼,使公司的未來發(fā)展受到質(zhì)疑時,谷歌迅速發(fā)起了一場營銷活動,說服OpenAI企業(yè)客戶轉(zhuǎn)向谷歌,F(xiàn)在,隨著Gemini的發(fā)布,谷歌也正是在利用這種不確定性。
然而,目前大多數(shù)人還是不能完整地體驗Gemini。最強大的對標(biāo)GPT-4的滿血版Gemini Ultra,還需要等待幾個月才能和公眾見面。據(jù)谷歌高管的說法,預(yù)計將于明年初上市。而現(xiàn)在推出的版本是為谷歌基于文本的搜索聊天機(jī)器人Bard的后臺,為其提供更高級的推理、規(guī)劃和理解能力。
在接下來的幾個月里,新的Gemini增強版Bard會在170多個國家提供英語版本的首發(fā),不包括歐盟和英國。谷歌負(fù)責(zé)Bard的副總裁Sissie Hsiao表示,這是因為公司需要與當(dāng)?shù)乇O(jiān)管機(jī)構(gòu)“接軌”。除此之外,Gemini還有一個名為Nano的版本,可以直接在設(shè)備上運行的,例如谷歌的新款Pixel手機(jī)。
谷歌VS OpenAI:瑜亮之爭鹿死誰手?
12月7日,隨著Gemini的高調(diào)發(fā)布,谷歌市值一晚就增加逾870億美元,增量相當(dāng)于OpenAI的最新估值。就目前來說,未上市的OpenAI估值在800億至900億美元之間。
要知道,今年以來谷歌的股價已經(jīng)上漲了逾50%,大幅跑贏了納斯達(dá)克綜合指數(shù),但卻落后于一些科技同行,里面就包括OpenAI最大的投資方微軟。
事實上,谷歌在過去的發(fā)展歷史中已經(jīng)吃過很多次苦頭,推出有缺陷的產(chǎn)品。這對公司發(fā)展來說,適得其反。就像今年2月為了應(yīng)對ChatGPT急急忙忙推出的Bard,因為一次小小失誤就導(dǎo)致股價蒸發(fā)了高達(dá)1000億美元。
哪怕是5月,谷歌宣布在大部分產(chǎn)品中植入生成型人工智能,比如谷歌郵箱和其他軟件,試圖用這個舉動改變市場的看法,但效果卻微乎其微。這也讓谷歌深刻認(rèn)識到,推出有缺陷的產(chǎn)品帶來的反噬。
但在科技行業(yè),只要足夠強大就足以搶占市場。早期的手機(jī)霸主諾基亞和黑莓就經(jīng)歷過慘痛教訓(xùn),蘋果用功能更強大、更直觀的iPhone搶走了它們的市場。在軟件領(lǐng)域,商業(yè)上的成功往往來自于性能最好的系統(tǒng)。
幾乎可以肯定的是,隨著Gemini的發(fā)布,谷歌或許有望逐漸扭轉(zhuǎn)那些不利的局面。摩根大通分析師就表示,“谷歌開始通過結(jié)合 Gemini的不同模型版本,來解決投資者對生成式人工智能創(chuàng)新和GenAI模型運行成本過高的擔(dān)憂。”
不過如果Gemini Ultra真如谷歌所說那樣在明年1月初發(fā)布,那么在頂級人工智能模型的頭部就呆不了太久時間。畢竟在谷歌努力追趕OpenAI的過程中,后者有將近一年的時間來開發(fā)新一代人工智能模型GPT-5。
但有一點不能否認(rèn),谷歌和OpenAI的這場對決,已是箭在弦上。
原文標(biāo)題 : 新火種AI|谷歌Gemini被曝夸大營銷?碾壓GPT4純靠“一張嘴”

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?