訂閱
糾錯(cuò)
加入自媒體

Gemini 3負(fù)責(zé)人最新訪談:不做情感陪伴,只做最強(qiáng)生產(chǎn)力工具

圖片

作者 林易

編輯 重點(diǎn)君

11月19日,谷歌發(fā)布Gemini 3模型。DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)和Gemini團(tuán)隊(duì)負(fù)責(zé)人喬希·伍德沃德(Josh Woodward)聯(lián)合接受專訪。

此次升級(jí),Gemini 3開始具備生成界面(Generative UI)的能力。當(dāng)用戶查詢梵高生平時(shí),它能即時(shí)構(gòu)建一個(gè)包含圖片和時(shí)間線的交互式頁面;當(dāng)涉及復(fù)雜計(jì)算時(shí),它能直接生成一個(gè)定制化的房貸計(jì)算器。

這種從回答問題向構(gòu)建應(yīng)用的躍遷,標(biāo)志著大模型應(yīng)用正在跨越單純的對(duì)話框,進(jìn)入動(dòng)態(tài)軟件生成的階段。

Gemini 3模型推理能力顯著增強(qiáng)。根據(jù)伍德沃德的說法,前代模型常在第5、6步推理時(shí)丟失思路,而 Gemini 3能在復(fù)雜的稅務(wù)規(guī)劃或長代碼調(diào)試中維持10到15步的連貫邏輯,大幅提升了在處理復(fù)雜任務(wù)時(shí)的可靠性。

在被稱作“人類終極考試”(Humanity's Last Exam)的跨學(xué)科博士級(jí)難題集考試中,Gemini 3pro的得分從前代Gemini 2.5Pro的21.6%大幅上升至37.5%,遠(yuǎn)超GPT-5.1的26.5%。SimpleQA Verified測試中,Gemini 3pro達(dá)到了72.1%的準(zhǔn)確率,相較GPT-5.1和Claude Sonnet 4.5提升了超1倍,大幅減少此前模型常見的幻覺現(xiàn)象。

此次最具突破性的升級(jí)出現(xiàn)在視覺智能領(lǐng)域。Gemini 3 Pro在一項(xiàng)專門針對(duì)屏幕理解和UI交互的ScreenSpot-Pro 測試中,取得了72.7%的高分,幾乎是GPT-5.1性能的20倍。這意味著AI Agent能夠區(qū)分按鈕、菜單、文本和上下文,而不僅僅是識(shí)別圖像中的物體,為AI Agent實(shí)現(xiàn)更高級(jí)的自動(dòng)化操作電腦提供了基礎(chǔ),大幅提升了模型作為數(shù)字工作代理的實(shí)用性。

圖片

在衡量Web開發(fā)能力的WebDev Arena排行榜上,Gemini 3拿下了1487 Elo的高分。伴隨Gemini 3發(fā)布,谷歌推出了全新的代理開發(fā)平臺(tái)“Google Antigravity”,由Gemini 3作為“智能代理”去調(diào)用工具、編寫接口、調(diào)試Bug,配合Vibe Coding的全新能力,用戶只需用自然語言描述需求,模型即可生成功能完整且設(shè)計(jì)美觀的代碼。

谷歌在戰(zhàn)略定位上表現(xiàn)得極為克制,拒絕了當(dāng)下熱門的情感陪伴領(lǐng)域,將Gemini定義為提升生產(chǎn)力的超級(jí)工具。其內(nèi)部考核指標(biāo)不是用戶粘性或情感依賴,而是今天幫用戶完成了多少項(xiàng)任務(wù)。在Gemini Agent的早期演示中:模型不僅能理解郵件語境,還能深度接入用戶郵箱,自動(dòng)歸類并擬定回復(fù),甚至幫助用戶徹底清空收件箱。從單純助手進(jìn)化為能夠獨(dú)立工作的智能同事。

 

圖片

  以下為訪談實(shí)錄:

羅茲:凱西,我們今天臨時(shí)加播一期特別節(jié)目,主題是Gemini 3的發(fā)布。

牛頓:是的,凱文。這款模型在硅谷AI圈子里期待已久,我們終于要親手體驗(yàn)真正的成品了。

羅茲:我們之所以打破常規(guī)周五發(fā)布節(jié)奏,專門錄制這一期,主要有兩個(gè)原因。首先,我們獲得了與谷歌兩位AI核心負(fù)責(zé)人(DeepMind首席執(zhí)行官哈薩比斯和Gemini團(tuán)隊(duì)副總裁伍德沃德)的專訪機(jī)會(huì)。 

其次,Gemini 3的發(fā)布引發(fā)了業(yè)界強(qiáng)烈關(guān)注。我們聽到多個(gè)實(shí)驗(yàn)室的內(nèi)部消息稱,這款模型在某些關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了突破,可能對(duì)競爭對(duì)手構(gòu)成實(shí)質(zhì)性威脅。過去兩年,谷歌曾被視為追趕者,如今的問題是:他們是否已重返領(lǐng)跑位置?

牛頓:在正式進(jìn)入訪談之前,我們先簡要介紹已知信息。谷歌在發(fā)布前舉行了閉門簡報(bào)會(huì),Gemini 3最引人注目的新能力包括:大幅提升的編碼與“氛圍編碼”能力;以及全新的交互界面生成功能。 

它不再僅輸出文字,而是直接為用戶生成定制化的交互界面。例如,用戶詢問梵高生平時(shí),模型會(huì)即時(shí)生成一個(gè)包含圖片、時(shí)間線和交互元素的完整學(xué)習(xí)頁面;又如生成百萬美元以上房產(chǎn)的按揭計(jì)算器。這些功能標(biāo)志著從“回答問題”向“構(gòu)建體驗(yàn)”的躍遷。

羅茲:在所有公開基準(zhǔn)測試中,Gemini 3均大幅超越Gemini 2.5 Pro。例如,在被稱作“人類終極考試”(Humanity's Last Exam)這一跨學(xué)科博士級(jí)難題集上,前者得分僅21.6%,后者直接提升至37.5%。谷歌的總體表態(tài)是:任何你能在ChatGPT、Claude或其他舊版Gemini上完成的任務(wù),在Gemini 3上都能做得更好。

牛頓:他們還展示了Gemini Agent的早期演示:模型可深度接入用戶郵箱,理解全部郵件內(nèi)容,自動(dòng)歸類、擬定回復(fù),甚至幫助用戶徹底清空收件箱。

此外,本周起Gemini 3將登陸Gemini App和谷歌搜索的AI Mode;美國大學(xué)生將獲一年免費(fèi)高級(jí)版訪問權(quán)限。谷歌反復(fù)強(qiáng)調(diào)的關(guān)鍵詞是“Learn Anything”(學(xué)習(xí)任何事物),這實(shí)際上是將Gemini定位為終極個(gè)性化教育工具。

羅茲:德米斯、喬希,歡迎來到《Hard Fork》。兩年前,桑達(dá)爾·皮查伊(Sundar Pichai)把Bard比作“一輛改裝后的本田思域”,在與更強(qiáng)勁對(duì)手的賽道上競速。那么,Gemini 3是一輛什么車? 

哈薩比斯:我希望它比本田思域快得多。我不太習(xí)慣用汽車來比喻,或許更像一輛專業(yè)的拖曳賽車(Drag Racer)。它不是為日常駕駛或環(huán)形賽道設(shè)計(jì)的,它擁有純粹的、為某一特定目標(biāo)所凝聚的巨大力量。它代表著我們最頂尖的研究成果與規(guī);懔Φ耐昝澜Y(jié)合,目標(biāo)就是要在智能前沿的這場競賽中,展現(xiàn)出無與倫比的瞬間爆發(fā)力。 

羅茲:這很有趣。相比以往所有AI模型,Gemini 3在具體層面上究竟能做什么全新的事情?請(qǐng)給我們一些量化、實(shí)際的例子。 

伍德沃德:有三點(diǎn)最為突出。第一,在多步推理上,它能同時(shí)思考更多步驟,我們將其可靠性提升到了一個(gè)全新的層次。前代模型常在進(jìn)行到第5、6步復(fù)雜的邏輯推導(dǎo)時(shí)“丟失思路”或產(chǎn)生幻覺,而Gemini 3能可靠地完成10到15步的連貫推理任務(wù),例如復(fù)雜稅務(wù)規(guī)劃、跨國差旅的整體規(guī)劃與預(yù)訂,或是對(duì)一個(gè)擁有數(shù)百萬行代碼的龐大系統(tǒng)進(jìn)行全面調(diào)試。

其次,它將首次大規(guī)模生成全新交互界面。用戶需求的不再是簡單的文字回答,而是定制化的軟件組件。比如你問它:“幫我設(shè)計(jì)一個(gè)可以追蹤我所有投資組合的儀表板”,它會(huì)實(shí)時(shí)生成一個(gè)交互式的、可操作的儀表盤界面,而不是一堆描述如何制作儀表盤的文字。

第三,我們?cè)诰幋a能力上投入巨大資源,尤其是前端與“氛圍編碼”,這意味著它可以根據(jù)自然語言的提示來生成功能完整、設(shè)計(jì)優(yōu)美的用戶界面代碼。即將推出的Google Antigravity等新產(chǎn)品也將充分展示這一點(diǎn),模型能夠動(dòng)態(tài)地根據(jù)上下文改變用戶界面的布局和功能。

牛頓:許多人認(rèn)為,對(duì)普通用戶而言,“聊天”這一用例已經(jīng)基本解決。他們甚至想不出什么新問題能讓Gemini 3的回答與前代產(chǎn)生質(zhì)的區(qū)別。你如何看待這種看法?

伍德沃德:我理解這種觀點(diǎn)。表面上看,基礎(chǔ)問答的準(zhǔn)確率已經(jīng)很高。但真正的區(qū)別在于可靠性、整合度與信息呈現(xiàn)方式。Gemini 3的回答將更簡潔、更有表現(xiàn)力、信息呈現(xiàn)方式更易理解,這是大多數(shù)人立刻能感知到的變化。 

更重要的是,模型開始與用戶其他數(shù)據(jù)源深度整合,例如與谷歌生態(tài)內(nèi)其他產(chǎn)品聯(lián)動(dòng),真正超越單純的問答模式,成為用戶的“數(shù)字化大管家”。它能理解你整個(gè)郵箱的語境,從而在起草回復(fù)時(shí),不僅回答問題,還能根據(jù)你過去的風(fēng)格、你與收件人的關(guān)系來調(diào)整語氣和內(nèi)容。

哈薩比斯:我完全同意。它的可靠性、風(fēng)格與個(gè)性都經(jīng)過精心打磨,更簡練、更切中要害。在“氛圍編碼”等場景已跨越實(shí)用性門檻。這是一種從“智能助手”到“智能同事”的轉(zhuǎn)變。我本人計(jì)劃用它在圣誕假期重拾游戲編程,它現(xiàn)在不僅能寫出功能代碼,還能在設(shè)計(jì)初期就提供架構(gòu)建議。 

羅茲:德米斯,你在今年5月接受我們采訪時(shí)判斷AGI仍需5至10年,并可能需要若干重大突破。Gemini 3是否改變了這一時(shí)間表?

哈薩比斯:完全沒有。它完全符合我們過去兩年設(shè)定的軌跡。事實(shí)上,自Gemini系列啟動(dòng)以來,我們的進(jìn)步速度已是行業(yè)最快。Gemini 3令人驚艷,但仍在預(yù)期之內(nèi)。 

距離真正的通用人工智能,仍需在一致性、推理深度、記憶機(jī)制以及物理世界建模(如我們正在推進(jìn)的SIMA與Genie項(xiàng)目)上取得1至2次關(guān)鍵突破。我們現(xiàn)在做的是“系統(tǒng)1思維”(快、直覺式),但要實(shí)現(xiàn)AGI,我們必須解鎖“系統(tǒng)2思維”(慢、深思熟慮、分析式)。

此外,模型需要具備長期的、選擇性的記憶機(jī)制,能夠回憶和應(yīng)用數(shù)周、數(shù)月前的特定互動(dòng)內(nèi)容,而非僅僅局限于有限的上下文窗口。因此,5至10年的判斷不變。

牛頓:關(guān)于模型個(gè)性與用戶關(guān)系,業(yè)界正在熱議“AI伴侶”。你希望用戶與Gemini 3建立何種關(guān)系? 

伍德沃德:這是一個(gè)非常敏感但重要的問題。我們將其定位為“超級(jí)工具”而非情感伴侶,核心價(jià)值是幫助用戶高效完成日常任務(wù),提升生產(chǎn)力。我們內(nèi)部更關(guān)注一個(gè)新指標(biāo):今天我們幫你完成了多少項(xiàng)任務(wù)?這更接近初代谷歌搜索的核心價(jià)值——效率。我們認(rèn)為,將模型推向情感伴侶的定位,既有安全風(fēng)險(xiǎn),也偏離了谷歌作為信息和工具提供者的核心使命。

羅茲:你們放棄了“情色伴侶”這一病毒式增長機(jī)會(huì),是否重大戰(zhàn)略失誤? 

伍德沃德:無可奉告。我們的安全團(tuán)隊(duì)對(duì)此有嚴(yán)格的規(guī)范和指導(dǎo)原則。

羅茲:過去幾周,競爭對(duì)手明顯緊張。你認(rèn)為谷歌目前在AI競賽中是否已處于領(lǐng)先? 

哈薩比斯:當(dāng)前環(huán)境是史上最激烈的競爭。唯一真正重要的是進(jìn)步速度,而我們對(duì)此非常滿意。我們從未失去研究領(lǐng)先地位,現(xiàn)在只是產(chǎn)品落地終于跟上。競爭對(duì)手在研究上很優(yōu)秀,但在規(guī)模化分發(fā)和垂直整合上,他們無法復(fù)制我們的優(yōu)勢。 

我們正將Gemini注入Maps、YouTube、Android、搜索、Workspace等數(shù)十億用戶產(chǎn)品,這個(gè)分發(fā)網(wǎng)絡(luò)和終端數(shù)據(jù)反饋環(huán)是無法逾越的護(hù)城河。此外,我們?cè)诙ㄖ苹疶PU芯片上的全棧優(yōu)勢,使我們的訓(xùn)練成本和效率遠(yuǎn)超依賴外部GPU資源的競爭者。

牛頓:關(guān)于規(guī)模定律與回報(bào)遞減的爭論,你怎么看?有人認(rèn)為,模型的規(guī)模越大,性能提升的邊際效益越低。

哈薩比斯:這是一個(gè)持續(xù)的辯論。我們對(duì)Gemini 3相較2.5的提升非常滿意,完全符合預(yù)期;貓(bào)并非像早期那樣呈指數(shù)級(jí)爆炸式增長,但它帶來的實(shí)用性增量和可靠性提升仍遠(yuǎn)高于我們的邊際成本,仍值得我們?nèi)ν度搿T诘诌_(dá)AGI所需的1至2次研究突破到來之前,通過最大規(guī)模的基礎(chǔ)模型持續(xù)推動(dòng)性能,仍然是當(dāng)前最有效的策略。我們相信,規(guī)模定律依然有效。 

羅茲:我們是否正處于AI泡沫之中?

哈薩比斯:這是一個(gè)過于二元的問題。某些領(lǐng)域(例如數(shù)十億美元種子輪卻無實(shí)際產(chǎn)品、只講概念的公司)確實(shí)存在泡沫,估值與實(shí)際收入不成比例。但谷歌同時(shí)擁有短期變現(xiàn)(搜索、Workspace、云TPU)與長期萬億級(jí)新賽道(機(jī)器人、游戲、藥物發(fā)現(xiàn)、材料科學(xué)等)。

例如,我們的AlphaFold等專業(yè)模型正在藥物發(fā)現(xiàn)領(lǐng)域創(chuàng)造實(shí)際價(jià)值,這是一個(gè)與消費(fèi)者AI估值無關(guān)的萬億級(jí)市場。無論短期泡沫是否存在,我們都將勝出:繁榮時(shí)抓住機(jī)會(huì),收縮時(shí)憑借全棧優(yōu)勢和深厚的現(xiàn)金流更具韌性。

牛頓:如果現(xiàn)在是感恩節(jié)聚會(huì),有人想轉(zhuǎn)移政治話題,你會(huì)建議他們用Gemini 3展示什么功能來驚艷全場? 

伍德沃德:我不知道它能不能拯救感恩節(jié),但它能帶來歡笑。拿出手機(jī)自拍,然后讓Gemini 3瘋狂編輯照片。

我們Gemini中的圖像模型在全球范圍內(nèi)仍然是最強(qiáng)的。你可以即時(shí)將家人合影變成任何滑稽的場景、風(fēng)格或時(shí)代背景。絕對(duì)能引發(fā)全場大笑。隨后,當(dāng)你展示它能如何幫你撰寫一封得體的辭職信或生成一個(gè)定制化的節(jié)日食譜計(jì)算器時(shí),他們自然就會(huì)探索其他新功能了。

       原文標(biāo)題 : Gemini 3負(fù)責(zé)人最新訪談:不做情感陪伴,只做最強(qiáng)生產(chǎn)力工具

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)