訂閱
糾錯
加入自媒體

AI應用“破壁”:從數(shù)字助手到操盤物理世界

2025-11-19 15:40
山自
關注

一句話生成一個世界,正從數(shù)字隱喻變?yōu)槲锢憩F(xiàn)實。 當AI不僅能回答“如何沖一杯咖啡”,更能直接操控機器為你遞上一杯親手沖調、溫度恰好的咖啡時,我們便站在了一個新時代的門檻上。

本周,一場密集的AI“亮劍”正在上演:阿里“千問”APP正式定位為“會聊天能辦事的個人AI助手”;螞蟻集團“靈光”主打“自然語言30秒生成小應用”;谷歌Gemini 3昨天則以碾壓性的多模態(tài)和Agent能力震動行業(yè)。

這三款產品,不約而同地指向同一個核心:AI的競爭正從“對話的藝術”轉向“辦事的能力”,從數(shù)字世界的比特流,邁向對物理世界的原子進行干預。

AI執(zhí)行力的三級躍遷

“幫我訂一張下周一到北京最早航班的經(jīng)濟艙機票,并用企業(yè)賬戶支付。”——這在過去需要打開App、多次點擊和輸入才能完成的任務,現(xiàn)在正成為AI“聽令即辦”的日常。

阿里將“千問”項目視為“AI時代的未來之戰(zhàn)”,其野心遠不止一個聊天機器人。據(jù)「智能涌現(xiàn)」了解,千問APP正計劃深度整合地圖、外賣、訂票、辦公、學習、購物、健康等生活全場景。其核心進化在于“Agentic AI”(智能體AI)——一種能理解意圖、規(guī)劃步驟、自主執(zhí)行任務的新范式。

圖片

“阿里計劃在未來幾個月內逐步為千問增加Agentic AI功能,支持在淘寶、天貓等平臺上用自然語言購物。”一位接近阿里的人士透露。這意味著,用戶指令從“展示羽絨服”變成了“幫我家人買一件適合零下十度、預算一千五以內的長款羽絨服,要輕便保暖”。AI將自動完成搜索、篩選、比價、尺寸選擇,直至下單支付的全過程。

螞蟻集團的“靈光”則展現(xiàn)了另一種更輕巧的物理世界交互路徑。其“閃應用”功能允許用戶在30秒內通過自然語言生成可交互的小應用。一位用戶體驗后感嘆:“當我讓靈光做一個‘人生計時器’,它生成的應用不僅美觀,更讓我直觀地感受到已流逝和剩余的生命時間,這種震撼源于它將一個抽象概念,變成了可感知、可交互的物理化體驗。”

圖片

谷歌Gemini 3的發(fā)布,則將這種執(zhí)行力推向了新的高度。其強大的屏幕理解能力(ScreenSpot-Pro得分72.7%)是一項關鍵技術突破。它意味著AI不再依賴專用的API接口,就能像人一樣“看懂”任何軟件界面并進行操作。從操作復雜的專業(yè)軟件到引導你完成手機設置,Gemini 3展示了其作為“萬能操作員”的潛質。

圖片

這三大產品,清晰地勾勒出AI執(zhí)行力的躍遷路徑:從被動問答到主動任務規(guī)劃,從信息整合到實物交易,從虛擬助手到物理世界的操盤手。

多模態(tài)理解與工具調用的關鍵突破

AI之所以能邁出虛擬對話框,得益于其在“眼睛”和“手”上的技術突破——即多模態(tài)理解和工具調用能力。

谷歌Gemini 3在多項基準測試中展現(xiàn)了碾壓性優(yōu)勢。其在涵蓋專業(yè)、學術領域的“人類終極考試”中取得37.5%的成績,在高端數(shù)學測試MathArena Apex中達到23.4%,大幅領先其他模型。更關鍵的是,其在終端操作基準測試中的優(yōu)異表現(xiàn),為AI操作手機、電腦等物理世界終端設備奠定了性能基石。

圖片

阿里的Qwen系列模型同樣構筑了堅實的技術底座。Qwen3-Max在考驗代碼能力的SWE-Bench評測中獲得69.6分,在需要深度推理的Tau2 Bench測試上取得突破性的74.8分,超過Claude Opus4等國際頂尖模型。尤為引人注目的是,在首屆AI大模型真實投資比賽中,Qwen3-Max以22.32%的收益率贏得比賽。這證明AI已不僅能處理結構化任務,更能在充滿不確定性的復雜環(huán)境中進行有效決策。

視覺能力的突破是連接物理世界的“臨門一腳”。千問APP的“以圖搜圖”功能可以直接識別現(xiàn)實物品并跳轉購物,而靈光的“靈光開眼”可以實時識別攝像頭中的物體并提供相關信息。當AI能“看懂”我們所見的世界,它才能真正理解“幫我拿一下桌子上的那本書”這樣的指令。

“過去,AI是‘盲人’,只能通過我們的描述來理解世界,F(xiàn)在,它擁有了‘視力’,并能將看到的信息與知識圖譜關聯(lián)。”一位行業(yè)分析師指出,“多模態(tài)理解讓AI從‘文本宇宙’降落在了‘物理地球’。”

從單一App到生活全場景的入口

技術決定了下限,而生態(tài)決定了上限。AI應用能否真正融入物理世界,很大程度上取決于其背后生態(tài)系統(tǒng)的廣度和深度。

阿里正以更加協(xié)同的方式推進其AI戰(zhàn)略。其內部人士指出,“AI技術革命讓阿里多樣化的產品和服務有機會產生更大協(xié)同效應。”千問APP正試圖成為串聯(lián)起淘寶、天貓、支付寶、高德、餓了么、飛豬等阿里系應用的“超級智能中樞”。用戶未來可能只需對千問說一句“我周末想去上海迪士尼”,它就能自動規(guī)劃行程、訂購機票酒店和門票,形成一個無縫的體驗閉環(huán)。

螞蟻集團的靈光則扎根于支付寶深厚的金融與本地生活場景。雖然目前尚未完全打通支付寶的核心API,但其想象空間巨大。一旦實現(xiàn),用戶將能通過自然語言直接完成轉賬、理財、繳費、信用借款等復雜金融操作,將原本需要多步跳轉的金融流程,壓縮為一句簡單的對話。

谷歌憑借其全球化的產品矩陣,為Gemini提供了更廣闊的試驗場。從搜索到Gmail,從Google Calendar到Maps,Gemini的Agent能力可以滲透到用戶數(shù)字生活的方方面面,并間接影響物理世界的行為。例如,它可以根據(jù)郵件自動添加航班行程到日歷,并提醒你出發(fā)時間。

這種生態(tài)整合的競爭,本質上是“場景密度”的競爭。 誰能為AI提供更豐富、更高頻的物理世界交互場景,誰的AI就能更快地學習和進化。一位深度用戶對比后表示:“千問在購物和本地生活場景明顯更懂中國用戶,而Gemini在處理復雜信息和全球化任務規(guī)劃上更勝一籌。”

隨著更多生活場景被接入,AI將不再只是回答問題的助手,而是真正能夠操辦實事的伙伴。擺在所有玩家面前的,是一道共同的難題:如何在確保安全、可靠的前提下,讓AI更好地理解并服務于這個復雜而充滿不確定性的物理世界。 這場競賽的序幕剛剛拉開,而它的勝利者,將很有可能定義未來十年的人機交互標準與用戶體驗范式。

       原文標題 : AI應用“破壁”:從數(shù)字助手到操盤物理世界

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號