價(jià)格是DeepSeek 277倍!GPT-4.5還是太自信了
GPT-4.5 不能說(shuō)沒(méi)有進(jìn)步,但比起飆漲的推理成本,就顯得 OpenAI 有些力不從心了。
北京時(shí)間 2 月 28 日,OpenAI 舉辦了一場(chǎng)相當(dāng)簡(jiǎn)單的直播,正式發(fā)布了傳聞已久的 GPT-4.5(研究預(yù)覽版)。但 OpenAI CEO Sam Altman(山姆·奧特曼)沒(méi)有親臨直播現(xiàn)場(chǎng),官方也指出 GPT-4.5 不是一個(gè)前沿模型。
相比之下,兩年前發(fā)布 GPT-4 的場(chǎng)面明顯更隆重,也更有想法。而這些跡象似乎在開(kāi)始就表明了:OpenAI 也不認(rèn)為,GPT-4.5 會(huì)是一次里程碑式的升級(jí)。
但有一說(shuō)一,GPT-4.5 依然是 OpenAI 最新、最強(qiáng)的聊天模型,不僅回答時(shí)的情商更高了,尤其重要的是,相比 GPT-4o 的準(zhǔn)確率提升了 24.%,幻覺(jué)率更是降低了 24.7%。
這些提升還是非常關(guān)鍵,要知道,這兩方面依然是包括 DeepSeek-R1 在內(nèi)很多大模型,在使用上最大的問(wèn)題。
單看這一點(diǎn),其實(shí)也值回了觀(guān)看直播發(fā)布活動(dòng)的「票價(jià)」。但相對(duì)地,使用 GPT-4.5 的「票價(jià)」很難評(píng)了:
輸入(緩存命中)為 37.5 美元 / 百萬(wàn) tokens;
輸入(緩存未命中)為 75 美元 / 百萬(wàn) tokens;
輸出為 150 美元 / 百萬(wàn) tokens。
什么概念?以輸入價(jià)格(緩存未命中)為例,GPT-4.5 的 API 價(jià)格是 GPT-4o 的整整 30 倍,還是 DeepSeek-V3(美元定價(jià))的 277 倍,DeepSeek-R1(美元定價(jià))的 136 倍。甚至如果對(duì)比 DeepSeek 優(yōu)惠時(shí)段的價(jià)格,GPT-4.5 是前者的 555 倍。
圖/雷科技
很難想象,GPT-4.5 這個(gè)貴出天際的價(jià)格,能有多少開(kāi)發(fā)者用得起、會(huì)想用。
相對(duì)來(lái)說(shuō),ChatGPT 會(huì)員可能是 GPT-4.5 最具性?xún)r(jià)比的一種方式。目前,Pro 用戶(hù)已經(jīng)可以率先體驗(yàn)到 GPT-4.5(研究預(yù)覽版),下周將向團(tuán)隊(duì)用戶(hù)和 Plus 用戶(hù)開(kāi)放,同時(shí)面向教育用戶(hù)和企業(yè)用戶(hù)推出。
需要強(qiáng)調(diào)的是,GPT 4.5 不是推理模型。
自從 OpenAI 推出 o1 模型后,大模型實(shí)際上分化出了一條名為「推理模型」的路線(xiàn),OpenAI o1/o3 以及 DeepSeek R1 都是這條路線(xiàn)。然而 GPT 4.5 則是非推理路線(xiàn)的預(yù)訓(xùn)練大模型,就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。
不過(guò),OpenAI 還表示,推理將是未來(lái)模型的核心能力,預(yù)訓(xùn)練和推理兩條路線(xiàn)并進(jìn)且相互補(bǔ)充也會(huì)是大模型的趨勢(shì)所在。其實(shí) Sam Altman 之前也明確表示過(guò)了,OpenAI 的兩個(gè)系列模型以后將會(huì):
合二為一。
智商升級(jí)不大,但情商高了、幻覺(jué)更少
如果從大模型常規(guī)比拼的「智商」來(lái)看,GPT-4.5 的進(jìn)步實(shí)在算不上大。
圖/ OpenAI
在 MMMLU(語(yǔ)言理解)、MMMU(多模態(tài))等基準(zhǔn)測(cè)試中的跑分盡管都比 GPT-4o 有了提升,但提升幅度只在 5%左右,在 GPQA(科學(xué))和 AIME ‘24(數(shù)據(jù))等基準(zhǔn)測(cè)試中也遠(yuǎn)不如推理模型的 o3-mini(high)。
不過(guò)讓我們跳過(guò)跑分以及背后的技術(shù)迭代等,回到直播演示中 GPT-4.5 更讓人「體感」到的升級(jí)上,還是能明顯感知到,GPT-4.5 在對(duì)話(huà)中對(duì)人類(lèi)需求和意圖更好地理解。
其中一次,主持人告訴 GPT-4.5「我的朋友又放我鴿子了,我想發(fā)一條短信罵他」,但 GPT-4.5 不會(huì)直接給出一條怒罵朋友的短信,而是捕捉到用戶(hù)在文字中的情緒,給出了一些更有建設(shè)性的短信。與之相較,GPT-4o 更多還是「單純」地執(zhí)行命令,給出了一條表達(dá)憤怒的短信。
翻譯僅供參考,圖/ OpenAI
相似的例子還有,比如告訴 GPT-4.5「我在考試失敗后正經(jīng)歷一段艱難時(shí)期」,其他模型會(huì)立刻給出一些可能的「解決方案」,GPT-4.5 則會(huì)主動(dòng)安慰并詢(xún)問(wèn)用戶(hù),實(shí)際是想談?wù)勥@個(gè)問(wèn)題,還是需要分散一下注意力。
在不少例子都可以看出 GPT-4.5 在「情商」上的進(jìn)步,簡(jiǎn)單來(lái)說(shuō)也更像「一個(gè)人」而非「機(jī)器」了。
在內(nèi)部測(cè)試中,OpenAI 也發(fā)現(xiàn)相比與 GPT-4o 的對(duì)話(huà),測(cè)試人員普遍認(rèn)為與 GPT-4.5 的對(duì)話(huà)更接近人類(lèi)的交流方式,也更自然。但坦白講,兩者在數(shù)據(jù)上差距并不算大,在創(chuàng)造性智能、日常詢(xún)問(wèn)上 GPT-4.5 也僅僅略勝一籌,專(zhuān)業(yè)問(wèn)詢(xún)上倒是可以做到 63.2%的勝率。
不過(guò)相比情商,更讓人在意的可能還是幻覺(jué)的減少。在「簡(jiǎn)單但有挑戰(zhàn)性」的場(chǎng) SimpleQA(包含從科技到電視節(jié)目、電子游戲等主題)常識(shí)問(wèn)答測(cè)試中,GPT-4.5 編造答案或產(chǎn)生幻覺(jué)的比例約為 37%,而與此相比,GPT-4o 模型的比例接近 60%。
上:準(zhǔn)確率,下:幻覺(jué)率,圖/ OpenAI
這里也要一提,GPT-4o 已經(jīng)算是目前幻覺(jué)比較少的模型之一,一般認(rèn)為比 DeepSeek-V3 更好,也就更遑論幻覺(jué)問(wèn)題比較嚴(yán)重的 DeepSeek-R1 了。
價(jià)格是DeepSeek 277倍!太離譜了
GPT-4.5 發(fā)布之后,MIT 科技評(píng)論采訪(fǎng)了一家為商業(yè)客戶(hù)的大模型服務(wù)公司,其聯(lián)合創(chuàng)始人兼 CTOWaseem Alshikh 表示,GPT-4.5 對(duì)于寫(xiě)作和頭腦風(fēng)暴這樣的特定用例非常有潛力,但整體來(lái)說(shuō)只是在交互變得更順滑了:
「這并不是一場(chǎng)變革!
這也大體能夠說(shuō)明 GPT-4.5 的升級(jí)定位,最多只能稱(chēng)得上一次半代升級(jí)。更何況,OpenAI 投入更多的訓(xùn)練算力,結(jié)果更多是帶來(lái)了貴得離譜的推理成本。
盡管沒(méi)有披露 GPT-4.5 的訓(xùn)練成本,但 Sam Altman 在 X(原 Twitter)上明確指出 GPT-4.5 是一個(gè)巨型、昂貴的模型,甚至 GPU 已經(jīng)不夠用,需要在下周增加數(shù)萬(wàn)個(gè) GPU 才能將其開(kāi)發(fā)給 Plus 以及更多用戶(hù)。
翻譯僅供參考,圖/ X
與此同時(shí),正如前文展示的數(shù)據(jù),GPT-4.5 的 API 定價(jià)出乎了所有人的意料,不僅比自家主力大模型貴,比剛剛推出的全球首個(gè)混合推理模型 Claude-3.7-Sonnet 也貴了 25 倍,更不用說(shuō)和剛剛宣布錯(cuò)峰定價(jià)的「價(jià)格屠夫」DeepSeek 比。
「坦白地說(shuō),我感到震驚。他們?nèi)绾巫C明這個(gè)要價(jià)是合理的?」Hacker New 網(wǎng)友表示,「如果他們有一些令人驚嘆的能力,使得價(jià)格翻 30 倍變得合理,為什么不展示出來(lái)呢?」
Hacker News 網(wǎng)友評(píng)論,圖/雷科技
背后的故事我們還不得而知,不過(guò)可以知道的是,GPT-4.5 在訓(xùn)練上還是有所改變,最核心的一點(diǎn)就是引入了「無(wú)監(jiān)督學(xué)習(xí)擴(kuò)展」(Scaling unsupervised learning)提到世界模型的準(zhǔn)確性和直覺(jué),這是 GPT-4.5 在情商和幻覺(jué)方面有所改進(jìn)的關(guān)鍵創(chuàng)新之一。
不僅如此,無(wú)監(jiān)督學(xué)習(xí)讓模型能夠從大量未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)語(yǔ)言模式和知識(shí),而且能夠使用較小模型的衍生數(shù)據(jù),來(lái)訓(xùn)練出更大、更強(qiáng)的模型。某種意義上,這也是 GPT-4.5 最大的貢獻(xiàn)之一,證明了用小模型訓(xùn)練大模型的可能,而不只是用大模型蒸餾出小模型。
但無(wú)論如何,GPT-4.5 的訓(xùn)練和推理成本都實(shí)在難以讓人接受,還是期待一下?lián)f(shuō)要提前發(fā)布的 DeepSeek-R2,會(huì)帶來(lái)怎樣的驚喜吧。
圖/ DeepSeek
寫(xiě)在最后
今年 1 月初,Sam Altman 在 X 上寫(xiě)一篇了「六字故事」:near the singularity; unclear which side。簡(jiǎn)單來(lái)說(shuō),可以譯為「奇點(diǎn)臨近,不知身處何方」。
緊接著,就是 DeepSeek-V3 和 R1 帶來(lái)的核彈級(jí)沖擊,讓 Sam Altman 也不得不承認(rèn) OpenAI 的閉源策略「站在錯(cuò)誤的一邊」。與此同時(shí),所有人也開(kāi)始轉(zhuǎn)向性能又強(qiáng)、性?xún)r(jià)比又高的 DeepSeek,包括 Gemini 等大模型也推出性?xún)r(jià)比同樣很高的新一代。
但說(shuō)了這么多,回歸模型本身,GPT-4.5 其實(shí)不差,擁有更大的知識(shí)庫(kù)、增強(qiáng)的創(chuàng)造力和更自然的對(duì)話(huà)風(fēng)格,也不像 o 系列模型那樣需要等待 AI 執(zhí)行詳細(xì)的逐步邏輯。說(shuō)實(shí)話(huà),身邊已經(jīng)有不少人厭煩了 DeepSeek-R1 冗長(zhǎng)的思考過(guò)程。
而更具體地說(shuō),GPT-4.5 可能更擅長(zhǎng)創(chuàng)意和細(xì)膩的任務(wù),如寫(xiě)作和解決實(shí)際問(wèn)題,更重要的是它可能產(chǎn)生的幻覺(jué)更少,通用性更強(qiáng)。
至少,ChatGPT 的訂閱用戶(hù)可能又多了續(xù)訂的理由,反正不需要我們考慮 OpenAI 的成本。就拿我自己說(shuō),前些天因?yàn)椴粷M(mǎn)回答的穩(wěn)定性取消了 ChatGPT Plus,但看完后又覺(jué)得,還是要下周體驗(yàn)后再確定是否續(xù)訂。
來(lái)源:雷科技
原文標(biāo)題 : 價(jià)格是DeepSeek 277倍!GPT-4.5還是太自信了

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線(xiàn)下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線(xiàn)會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線(xiàn)自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?