OpenAI首個(gè)智能體面世!ChatGPT劇變,AGI時(shí)代真來了?
關(guān)于 OpenAI 推出「智能體(Agent)」的傳聞早已甚囂塵上。去年 11 月起,就不斷有爆料消息指出,OpenAI 將在 2025 年 1 月上線首個(gè)智能體,稍早前還被海外科技媒體 The Information 把范圍縮小到了本月底。
而現(xiàn)在,OpenAI 終于按下了智能體時(shí)代的啟動(dòng)鍵——發(fā)布了旗下首個(gè)智能體 Operator。北京時(shí)間 1 月 24 日凌晨,OpenAI 的直播活動(dòng)吸引了全球科技圈的目光。這場(chǎng)直播的主角,正是萬眾矚目的 Operator。
作為真·智能體,Operator 能夠模擬人類在電腦上的操作行為,通過點(diǎn)擊、滾動(dòng)、輸入等操作直接與網(wǎng)頁進(jìn)行交互,完成各種任務(wù)。簡(jiǎn)單來說,Operator 就像一個(gè)擁有「自主意識(shí)」的數(shù)字員工,可以像人類一樣瀏覽網(wǎng)頁、填寫表格、訂購商品以及預(yù)訂餐廳等,由此也就可以代替我們進(jìn)行一些繁瑣甚至復(fù)雜的操作。
Operator 起始頁面,圖/ OpenAI
在此之前,OpenAI 已經(jīng)邁出一步推出了「Tasks(任務(wù))」功能,嘗試將 ChatGPT 從一個(gè)完全被動(dòng)的 AI 聊天機(jī)器人,開始轉(zhuǎn)變成主動(dòng)執(zhí)行任務(wù)的 AI 數(shù)字助手。而 Operator 的出現(xiàn),則標(biāo)志著 OpenAI 正式邁入了智能體時(shí)代,實(shí)現(xiàn)從「被動(dòng)處理信息」到「主動(dòng)完成任務(wù)」的進(jìn)化——這是通往通用人工智能(AGI)的關(guān)鍵一步。
當(dāng)ChatGPT 學(xué)會(huì)了「網(wǎng)上沖浪」
首先要說明的是,Operator 目前處于研究預(yù)覽階段,僅面向美國的 ChatGPT Pro(200 美元/月)用戶,Plus 用戶也不能體驗(yàn)。不也同于 Claude 的 Computer Us 以及智譜的 GLM-PC 智能體都直接操作用戶的電腦,Operator 是在云端打開一個(gè)「瀏覽器」進(jìn)行操作。
左邊是對(duì)話,右邊是云端的瀏覽器,圖/ OpenAI
但要真正明白 Operator 的意義,還是回到實(shí)際場(chǎng)景中,在 OpenAI 的現(xiàn)場(chǎng)演示中,看看 AI 是如何像一個(gè)經(jīng)驗(yàn)豐富的「網(wǎng)上沖浪老手」一樣,在數(shù)字世界里自由穿梭,完成各種任務(wù)。
比如在 OpenAI 的現(xiàn)場(chǎng)演示中,就要求 Operator 在 Beretta(餐廳)訂一桌今晚 7 點(diǎn)兩人的位置。這個(gè)指令對(duì)于我們?nèi)祟悂碚f,只需要在美食預(yù)訂網(wǎng)站上進(jìn)行幾次搜索和篩選就能完成,但對(duì)于 AI 來說,卻是一項(xiàng)不小的挑戰(zhàn)。
而輸入餐廳預(yù)訂要求后,Operator 會(huì)在初步分析需求后直接打開一個(gè)云端的瀏覽器后臺(tái),開始分步驟搜索餐廳、查看并開始預(yù)訂。當(dāng)然,用戶也可以透過窗口直接觀察到 Operator 的每一步點(diǎn)擊、滑動(dòng)和輸入,就像人類一樣操作。
通過快照可以回看到 AI 的每一步思考和操作,圖/ OpenAI
Operator 的表現(xiàn)確實(shí)令人驚艷。它迅速啟動(dòng)了內(nèi)置的瀏覽器,然后開始「觀察」屏幕上的內(nèi)容,通過分析網(wǎng)頁的結(jié)構(gòu)和元素,找到了搜索框和各種篩選選項(xiàng)。整個(gè)過程行云流水,就像真的有一個(gè)人在處理一切。
有意思的是,開始 Operator 發(fā)現(xiàn) Beretta 今晚 7 點(diǎn)沒有位置后,還會(huì)重新檢索一個(gè)接近用戶要求的「預(yù)訂」,最終告知并主動(dòng)詢問用戶是否選擇「今晚 7 : 45」這個(gè)時(shí)間進(jìn)行預(yù)訂。
AI 檢索后推薦了一個(gè)接近的時(shí)間,圖/ OpenAI
同樣地,當(dāng)「今晚 7 : 45」的機(jī)會(huì)被其他人搶到后,Operator 回過頭來又能提供「今晚 6 : 15」和「今晚 8 : 15」兩個(gè)預(yù)訂時(shí)間供用戶選擇。
不僅如此,在購買一組雜貨的任務(wù)中也可以看出,Operator 可以連續(xù)執(zhí)行任務(wù),通過不斷搜索商品、添加到購物車。而最終結(jié)算前,Operator 也會(huì)要求用戶接管控制,進(jìn)行最終的確認(rèn)和付款(可以登錄賬戶并保留登入狀態(tài)),用戶也可以臨時(shí)進(jìn)行添加或者修改。
購買雜物(2x 播放),圖/ OpenAI
再結(jié)合 OpenAI 此前推出的「Tasks」功能,完全可以想象以后讓 Operator 定期補(bǔ)充購買日用品的景象。
而從官方演示以及少數(shù)用戶分享的測(cè)試來看,在購物、訂票等場(chǎng)景中,Operator 展現(xiàn)出了很強(qiáng)的適應(yīng)性和通用性,能夠出色地完成各種不同的任務(wù)。
另外正如前文所述,用戶可以觀察 Operator 的每一步操作,當(dāng)然也可以選擇不看,繼續(xù)讓 Operator 同時(shí)執(zhí)行另一個(gè)任務(wù),或者干脆忙自己的工作,Operator 向你發(fā)送提醒后再進(jìn)行確認(rèn)即可。
同時(shí)運(yùn)行多個(gè)任務(wù),圖/ YouTube
不管是官方演示還是油管博主的測(cè)試,都說明了這一點(diǎn)。但 Operator 到底是如何做到這一切的呢?
基于 GPT-4o 打造“CUA”是關(guān)鍵
Operator 之所以能夠像人類一樣操作電腦,離不開 OpenAI 為其量身打造的「計(jì)算機(jī)使用智能體(CUA)」。CUA 基于 GPT-4o 的視覺能力以及高級(jí)推理技術(shù)打造,讓 AI「看懂」和「操作」電腦界面,或者說讓 AI 和人類一樣有了與圖形用戶界面(GUI)交互的能力。
CUA 首先要做的就是「看懂」屏幕上的內(nèi)容。它通過分析屏幕截圖,理解圖像、文字等多種信息,識(shí)別出網(wǎng)頁上的各種元素,例如按鈕、鏈接、文本框等等。這個(gè)過程就像我們?nèi)祟愑醚劬τ^察世界一樣。
甚至知道等一下,圖/ OpenAI
然后,CUA 會(huì)根據(jù)用戶的指令和「看到」的內(nèi)容進(jìn)行推理和判斷,決定下一步要執(zhí)行什么操作。例如,當(dāng)用戶要求預(yù)訂餐廳時(shí),CUA 會(huì)推理出需要先訪問餐廳預(yù)訂網(wǎng)站,然后在搜索框中輸入關(guān)鍵詞。這個(gè)過程就像我們?nèi)祟愒谒伎紗栴}一樣。
同時(shí),CUA 會(huì)執(zhí)行相應(yīng)的操作,例如鼠標(biāo)移動(dòng)、點(diǎn)擊、鍵盤輸入等等。這些操作都非常精準(zhǔn),就像我們通過鼠標(biāo)、鍵盤操作電腦一樣。也因?yàn)檫@種通用的交互能力,Operator 不需要網(wǎng)站提供 API 接口,幾乎可以適用于任何網(wǎng)頁。
為了讓操作更加智能和連貫,CUA 還通過一個(gè)迭代循環(huán)進(jìn)行操作,不斷地「觀察」、「思考」和「行動(dòng)」,直至任務(wù)完成。遇到挑戰(zhàn)或犯錯(cuò)誤,Operator 可以利用其推理能力進(jìn)行自我糾正。而當(dāng)遇到困難或者需要用戶操作時(shí),Operator 也會(huì)將控制權(quán)交還給用戶。
而且 OpenAI 很巧妙地選擇了在云端運(yùn)行瀏覽器,而不像 Claude Computer Us 以及智譜的 GLM-PC 智能體直接操作用戶電腦,容易產(chǎn)生「占用」「隱私」「環(huán)境」的問題。
Claude Computer Use,圖/ Anthropic
前兩個(gè)很容易理解。「占用」意味著在智能體操作電腦的時(shí)候,用戶無法同時(shí)進(jìn)行其他操作,只能等待智能體。「隱私」問題可想而知,畢竟在用戶電腦中通常存有大量私密的文件和信息。
「環(huán)境」則是指用戶實(shí)際使用的電腦通常運(yùn)行環(huán)境復(fù)雜,不僅是可能遭遇各種系統(tǒng)和軟件 Bug,甚至單單啟動(dòng)軟件都可能遭遇權(quán)限等問題,不管在 Windows、macOS 還是 Linux 下。
相比之下,OpenAI 似乎想避免「步子邁大扯到蛋」,把使用場(chǎng)景限定在最通用的「瀏覽器」上,同時(shí)通過云端運(yùn)行來確保統(tǒng)一、隱私、可后臺(tái)運(yùn)行的操作環(huán)境。
盡管 OpenAI 不是第一個(gè)打造真·智能體的大模型廠商,但這些技術(shù)與產(chǎn)品設(shè)計(jì)的結(jié)合,不僅實(shí)現(xiàn)了 AI 從「被動(dòng)處理信息」到「主動(dòng)完成任務(wù)」的跨越,讓 Operator 能夠完成各種任務(wù),也讓 Operator 在一定程度上超越了 Claude Computer Us 或是智譜的 GLM-PC,更適合主流大眾使用。
AI 改變世界,智能體改變 AI
過去一年,智能體幾乎成了 AI 行業(yè)的共識(shí)。但實(shí)際上很多廠商宣傳的「智能體」只是對(duì)上下文進(jìn)行了簡(jiǎn)單的定制,例如角色扮演類的「智能體」只是預(yù)設(shè)了一段人物設(shè)定文本,然后將問題進(jìn)行拆分執(zhí)行。
本質(zhì)上仍然是軟件模塊,而非真正能夠自主行動(dòng)的智能體。
而真正的智能體作為大模型時(shí)代的應(yīng)用或者說交互窗口,應(yīng)該能夠像人類一樣進(jìn)行操作和行動(dòng),例如操作電腦、執(zhí)行任務(wù)等,直接替代人類執(zhí)行所有不必要的操作。
圖/智譜
這一點(diǎn)非常重要,可以區(qū)分概念炒作和真正的技術(shù)突破,也能讓我們看清 Claude Computer Use、榮耀 YOYO 智能體以及今天 OpenAI Operator 的價(jià)值。
不過也要明白,Operator 以及其他類似的「真·智能體」仍然處于早期的摸索階段。核心還是「通用性」的挑戰(zhàn),即便到了今天 OpenAI 的 Operator,智能體還是沒有實(shí)現(xiàn)真正和人類一樣的通用化交互能力,還不支持任意網(wǎng)站和任意程序。
YOYO 智能體自動(dòng)訂購的咖啡,圖/雷科技
而互聯(lián)網(wǎng)是一個(gè)充滿變化的世界,面對(duì)數(shù)不清的網(wǎng)站和交互設(shè)計(jì),如何讓智能體始終保持適應(yīng)性,是一個(gè)需要長(zhǎng)期解決的問題。
盡管如此,但依舊能夠看到智能體作為「AI 應(yīng)用」的巨大價(jià)值,可以將我們從繁瑣重復(fù)的操作中解放出來,讓我們有更多的時(shí)間和精力去從事更有創(chuàng)造性和更有意義的工作。更重要的是極大地提高了交互效率,降低了交互門檻。
舉一個(gè)非常實(shí)際的例子,最近短視頻和社交平臺(tái)上都在流行大學(xué)生過年回家給老人卸載流氓應(yīng)用、關(guān)閉廣告設(shè)置,一個(gè)關(guān)鍵原因在于智能手機(jī)對(duì)于老一輩來說交互門檻還是高了。
與此相對(duì)的是,大模型帶來了前所未有的自然語言交互能力,而智能體則在嘗試更進(jìn)一步解放人類的雙手和大腦。
原文標(biāo)題 : OpenAI首個(gè)智能體面世!ChatGPT劇變,AGI時(shí)代真來了?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?