訂閱
糾錯(cuò)
加入自媒體

價(jià)格是DeepSeek 277倍!GPT-4.5還是太自信了

2025-03-03 09:00
雷科技
關(guān)注

好得有限,貴得離譜。

GPT-4.5 不能說(shuō)沒(méi)有進(jìn)步,但比起飆漲的推理成本,就顯得 OpenAI 有些力不從心了。

北京時(shí)間 2 月 28 日,OpenAI 舉辦了一場(chǎng)相當(dāng)簡(jiǎn)單的直播,正式發(fā)布了傳聞已久的 GPT-4.5(研究預(yù)覽版)。但 OpenAI CEO Sam Altman(山姆·奧特曼)沒(méi)有親臨直播現(xiàn)場(chǎng),官方也指出 GPT-4.5 不是一個(gè)前沿模型。

相比之下,兩年前發(fā)布 GPT-4 的場(chǎng)面明顯更隆重,也更有想法。而這些跡象似乎在開(kāi)始就表明了:OpenAI 也不認(rèn)為,GPT-4.5 會(huì)是一次里程碑式的升級(jí)。

但有一說(shuō)一,GPT-4.5 依然是 OpenAI 最新、最強(qiáng)的聊天模型,不僅回答時(shí)的情商更高了,尤其重要的是,相比 GPT-4o 的準(zhǔn)確率提升了 24.%,幻覺(jué)率更是降低了 24.7%。

這些提升還是非常關(guān)鍵,要知道,這兩方面依然是包括 DeepSeek-R1 在內(nèi)很多大模型,在使用上最大的問(wèn)題。

單看這一點(diǎn),其實(shí)也值回了觀(guān)看直播發(fā)布活動(dòng)的「票價(jià)」。但相對(duì)地,使用 GPT-4.5 的「票價(jià)」很難評(píng)了:

輸入(緩存命中)為 37.5 美元 / 百萬(wàn) tokens;

輸入(緩存未命中)為 75 美元 / 百萬(wàn) tokens;

輸出為 150 美元 / 百萬(wàn) tokens。

什么概念?以輸入價(jià)格(緩存未命中)為例,GPT-4.5 的 API 價(jià)格是 GPT-4o 的整整 30 倍,還是 DeepSeek-V3(美元定價(jià))的 277 倍,DeepSeek-R1(美元定價(jià))的 136 倍。甚至如果對(duì)比 DeepSeek 優(yōu)惠時(shí)段的價(jià)格,GPT-4.5 是前者的 555 倍。

SCR-20250228-ogpi.png

圖/雷科技

很難想象,GPT-4.5 這個(gè)貴出天際的價(jià)格,能有多少開(kāi)發(fā)者用得起、會(huì)想用。

相對(duì)來(lái)說(shuō),ChatGPT 會(huì)員可能是 GPT-4.5 最具性?xún)r(jià)比的一種方式。目前,Pro 用戶(hù)已經(jīng)可以率先體驗(yàn)到 GPT-4.5(研究預(yù)覽版),下周將向團(tuán)隊(duì)用戶(hù)和 Plus 用戶(hù)開(kāi)放,同時(shí)面向教育用戶(hù)和企業(yè)用戶(hù)推出。

需要強(qiáng)調(diào)的是,GPT 4.5 不是推理模型。

自從 OpenAI 推出 o1 模型后,大模型實(shí)際上分化出了一條名為「推理模型」的路線(xiàn),OpenAI o1/o3 以及 DeepSeek R1 都是這條路線(xiàn)。然而 GPT 4.5 則是非推理路線(xiàn)的預(yù)訓(xùn)練大模型,就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。

不過(guò),OpenAI 還表示,推理將是未來(lái)模型的核心能力,預(yù)訓(xùn)練和推理兩條路線(xiàn)并進(jìn)且相互補(bǔ)充也會(huì)是大模型的趨勢(shì)所在。其實(shí) Sam Altman 之前也明確表示過(guò)了,OpenAI 的兩個(gè)系列模型以后將會(huì):

合二為一。

智商升級(jí)不大,但情商高了、幻覺(jué)更少

如果從大模型常規(guī)比拼的「智商」來(lái)看,GPT-4.5 的進(jìn)步實(shí)在算不上大。

SCR-20250228-mxwi.png

圖/ OpenAI

在 MMMLU(語(yǔ)言理解)、MMMU(多模態(tài))等基準(zhǔn)測(cè)試中的跑分盡管都比 GPT-4o 有了提升,但提升幅度只在 5%左右,在 GPQA(科學(xué))和 AIME ‘24(數(shù)據(jù))等基準(zhǔn)測(cè)試中也遠(yuǎn)不如推理模型的 o3-mini(high)。

不過(guò)讓我們跳過(guò)跑分以及背后的技術(shù)迭代等,回到直播演示中 GPT-4.5 更讓人「體感」到的升級(jí)上,還是能明顯感知到,GPT-4.5 在對(duì)話(huà)中對(duì)人類(lèi)需求和意圖更好地理解。

其中一次,主持人告訴 GPT-4.5「我的朋友又放我鴿子了,我想發(fā)一條短信罵他」,但 GPT-4.5 不會(huì)直接給出一條怒罵朋友的短信,而是捕捉到用戶(hù)在文字中的情緒,給出了一些更有建設(shè)性的短信。與之相較,GPT-4o 更多還是「單純」地執(zhí)行命令,給出了一條表達(dá)憤怒的短信。

SCR-20250228-mwsu.png

翻譯僅供參考,圖/ OpenAI

相似的例子還有,比如告訴 GPT-4.5「我在考試失敗后正經(jīng)歷一段艱難時(shí)期」,其他模型會(huì)立刻給出一些可能的「解決方案」,GPT-4.5 則會(huì)主動(dòng)安慰并詢(xún)問(wèn)用戶(hù),實(shí)際是想談?wù)勥@個(gè)問(wèn)題,還是需要分散一下注意力。

在不少例子都可以看出 GPT-4.5 在「情商」上的進(jìn)步,簡(jiǎn)單來(lái)說(shuō)也更像「一個(gè)人」而非「機(jī)器」了。

在內(nèi)部測(cè)試中,OpenAI 也發(fā)現(xiàn)相比與 GPT-4o 的對(duì)話(huà),測(cè)試人員普遍認(rèn)為與 GPT-4.5 的對(duì)話(huà)更接近人類(lèi)的交流方式,也更自然。但坦白講,兩者在數(shù)據(jù)上差距并不算大,在創(chuàng)造性智能、日常詢(xún)問(wèn)上 GPT-4.5 也僅僅略勝一籌,專(zhuān)業(yè)問(wèn)詢(xún)上倒是可以做到 63.2%的勝率。

不過(guò)相比情商,更讓人在意的可能還是幻覺(jué)的減少。在「簡(jiǎn)單但有挑戰(zhàn)性」的場(chǎng) SimpleQA(包含從科技到電視節(jié)目、電子游戲等主題)常識(shí)問(wèn)答測(cè)試中,GPT-4.5 編造答案或產(chǎn)生幻覺(jué)的比例約為 37%,而與此相比,GPT-4o 模型的比例接近 60%。

SCR-20250228-ohxj.png

上:準(zhǔn)確率,下:幻覺(jué)率,圖/ OpenAI

這里也要一提,GPT-4o 已經(jīng)算是目前幻覺(jué)比較少的模型之一,一般認(rèn)為比 DeepSeek-V3 更好,也就更遑論幻覺(jué)問(wèn)題比較嚴(yán)重的 DeepSeek-R1 了。

價(jià)格是DeepSeek 277倍!太離譜了

GPT-4.5 發(fā)布之后,MIT 科技評(píng)論采訪(fǎng)了一家為商業(yè)客戶(hù)的大模型服務(wù)公司,其聯(lián)合創(chuàng)始人兼 CTOWaseem Alshikh 表示,GPT-4.5 對(duì)于寫(xiě)作和頭腦風(fēng)暴這樣的特定用例非常有潛力,但整體來(lái)說(shuō)只是在交互變得更順滑了:

「這并不是一場(chǎng)變革!

這也大體能夠說(shuō)明 GPT-4.5 的升級(jí)定位,最多只能稱(chēng)得上一次半代升級(jí)。更何況,OpenAI 投入更多的訓(xùn)練算力,結(jié)果更多是帶來(lái)了貴得離譜的推理成本。

盡管沒(méi)有披露 GPT-4.5 的訓(xùn)練成本,但 Sam Altman 在 X(原 Twitter)上明確指出 GPT-4.5 是一個(gè)巨型、昂貴的模型,甚至 GPU 已經(jīng)不夠用,需要在下周增加數(shù)萬(wàn)個(gè) GPU 才能將其開(kāi)發(fā)給 Plus 以及更多用戶(hù)。

SCR-20250228-oitb.png

翻譯僅供參考,圖/ X

與此同時(shí),正如前文展示的數(shù)據(jù),GPT-4.5 的 API 定價(jià)出乎了所有人的意料,不僅比自家主力大模型貴,比剛剛推出的全球首個(gè)混合推理模型 Claude-3.7-Sonnet 也貴了 25 倍,更不用說(shuō)和剛剛宣布錯(cuò)峰定價(jià)的「價(jià)格屠夫」DeepSeek 比。

「坦白地說(shuō),我感到震驚。他們?nèi)绾巫C明這個(gè)要價(jià)是合理的?」Hacker New 網(wǎng)友表示,「如果他們有一些令人驚嘆的能力,使得價(jià)格翻 30 倍變得合理,為什么不展示出來(lái)呢?」

SCR-20250228-nlgn.png

Hacker News 網(wǎng)友評(píng)論,圖/雷科技

背后的故事我們還不得而知,不過(guò)可以知道的是,GPT-4.5 在訓(xùn)練上還是有所改變,最核心的一點(diǎn)就是引入了「無(wú)監(jiān)督學(xué)習(xí)擴(kuò)展」(Scaling unsupervised learning)提到世界模型的準(zhǔn)確性和直覺(jué),這是 GPT-4.5 在情商和幻覺(jué)方面有所改進(jìn)的關(guān)鍵創(chuàng)新之一。

不僅如此,無(wú)監(jiān)督學(xué)習(xí)讓模型能夠從大量未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)語(yǔ)言模式和知識(shí),而且能夠使用較小模型的衍生數(shù)據(jù),來(lái)訓(xùn)練出更大、更強(qiáng)的模型。某種意義上,這也是 GPT-4.5 最大的貢獻(xiàn)之一,證明了用小模型訓(xùn)練大模型的可能,而不只是用大模型蒸餾出小模型。

但無(wú)論如何,GPT-4.5 的訓(xùn)練和推理成本都實(shí)在難以讓人接受,還是期待一下?lián)f(shuō)要提前發(fā)布的 DeepSeek-R2,會(huì)帶來(lái)怎樣的驚喜吧。

676f8dabc1ac0acbdfdd3957_DeepSeek V3.jpg

圖/ DeepSeek

 寫(xiě)在最后

今年 1 月初,Sam Altman 在 X 上寫(xiě)一篇了「六字故事」:near the singularity; unclear which side。簡(jiǎn)單來(lái)說(shuō),可以譯為「奇點(diǎn)臨近,不知身處何方」。

緊接著,就是 DeepSeek-V3 和 R1 帶來(lái)的核彈級(jí)沖擊,讓 Sam Altman 也不得不承認(rèn) OpenAI 的閉源策略「站在錯(cuò)誤的一邊」。與此同時(shí),所有人也開(kāi)始轉(zhuǎn)向性能又強(qiáng)、性?xún)r(jià)比又高的 DeepSeek,包括 Gemini 等大模型也推出性?xún)r(jià)比同樣很高的新一代。

但說(shuō)了這么多,回歸模型本身,GPT-4.5 其實(shí)不差,擁有更大的知識(shí)庫(kù)、增強(qiáng)的創(chuàng)造力和更自然的對(duì)話(huà)風(fēng)格,也不像 o 系列模型那樣需要等待 AI 執(zhí)行詳細(xì)的逐步邏輯。說(shuō)實(shí)話(huà),身邊已經(jīng)有不少人厭煩了 DeepSeek-R1 冗長(zhǎng)的思考過(guò)程。

而更具體地說(shuō),GPT-4.5 可能更擅長(zhǎng)創(chuàng)意和細(xì)膩的任務(wù),如寫(xiě)作和解決實(shí)際問(wèn)題,更重要的是它可能產(chǎn)生的幻覺(jué)更少,通用性更強(qiáng)。

至少,ChatGPT 的訂閱用戶(hù)可能又多了續(xù)訂的理由,反正不需要我們考慮 OpenAI 的成本。就拿我自己說(shuō),前些天因?yàn)椴粷M(mǎn)回答的穩(wěn)定性取消了 ChatGPT Plus,但看完后又覺(jué)得,還是要下周體驗(yàn)后再確定是否續(xù)訂。

來(lái)源:雷科技

       原文標(biāo)題 : 價(jià)格是DeepSeek 277倍!GPT-4.5還是太自信了

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)