小舞屈辱打开双腿自慰出白浆,大屁股国产白浆一二区

價(jià)格是DeepSeek 277倍！GPT-4.5還是太自信了

2025-03-03 09:00

好得有限，貴得離譜。

GPT-4.5 不能說沒有進(jìn)步，但比起飆漲的推理成本，就顯得 OpenAI 有些力不從心了。

北京時(shí)間 2 月 28 日，OpenAI 舉辦了一場相當(dāng)簡單的直播，正式發(fā)布了傳聞已久的 GPT-4.5（研究預(yù)覽版）。但 OpenAI CEO Sam Altman（山姆·奧特曼）沒有親臨直播現(xiàn)場，官方也指出 GPT-4.5 不是一個(gè)前沿模型。

相比之下，兩年前發(fā)布 GPT-4 的場面明顯更隆重，也更有想法。而這些跡象似乎在開始就表明了：OpenAI 也不認(rèn)為，GPT-4.5 會(huì)是一次里程碑式的升級(jí)。

但有一說一，GPT-4.5 依然是 OpenAI 最新、最強(qiáng)的聊天模型，不僅回答時(shí)的情商更高了，尤其重要的是，相比 GPT-4o 的準(zhǔn)確率提升了 24.%，幻覺率更是降低了 24.7%。

這些提升還是非常關(guān)鍵，要知道，這兩方面依然是包括 DeepSeek-R1 在內(nèi)很多大模型，在使用上最大的問題。

單看這一點(diǎn)，其實(shí)也值回了觀看直播發(fā)布活動(dòng)的「票價(jià)」。但相對(duì)地，使用 GPT-4.5 的「票價(jià)」很難評(píng)了：

輸入（緩存命中）為 37.5 美元 / 百萬 tokens；

輸入（緩存未命中）為 75 美元 / 百萬 tokens；

輸出為 150 美元 / 百萬 tokens。

什么概念？以輸入價(jià)格（緩存未命中）為例，GPT-4.5 的 API 價(jià)格是 GPT-4o 的整整 30 倍，還是 DeepSeek-V3（美元定價(jià)）的 277 倍，DeepSeek-R1（美元定價(jià)）的 136 倍。甚至如果對(duì)比 DeepSeek 優(yōu)惠時(shí)段的價(jià)格，GPT-4.5 是前者的 555 倍。

圖/雷科技

很難想象，GPT-4.5 這個(gè)貴出天際的價(jià)格，能有多少開發(fā)者用得起、會(huì)想用。

相對(duì)來說，ChatGPT 會(huì)員可能是 GPT-4.5 最具性價(jià)比的一種方式。目前，Pro 用戶已經(jīng)可以率先體驗(yàn)到 GPT-4.5（研究預(yù)覽版），下周將向團(tuán)隊(duì)用戶和 Plus 用戶開放，同時(shí)面向教育用戶和企業(yè)用戶推出。

需要強(qiáng)調(diào)的是，GPT 4.5 不是推理模型。

自從 OpenAI 推出 o1 模型后，大模型實(shí)際上分化出了一條名為「推理模型」的路線，OpenAI o1/o3 以及 DeepSeek R1 都是這條路線。然而 GPT 4.5 則是非推理路線的預(yù)訓(xùn)練大模型，就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。

不過，OpenAI 還表示，推理將是未來模型的核心能力，預(yù)訓(xùn)練和推理兩條路線并進(jìn)且相互補(bǔ)充也會(huì)是大模型的趨勢所在。其實(shí) Sam Altman 之前也明確表示過了，OpenAI 的兩個(gè)系列模型以后將會(huì)：

合二為一。

智商升級(jí)不大，但情商高了、幻覺更少

如果從大模型常規(guī)比拼的「智商」來看，GPT-4.5 的進(jìn)步實(shí)在算不上大。

圖/ OpenAI

在 MMMLU（語言理解）、MMMU（多模態(tài)）等基準(zhǔn)測試中的跑分盡管都比 GPT-4o 有了提升，但提升幅度只在 5%左右，在 GPQA（科學(xué)）和 AIME ‘24（數(shù)據(jù)）等基準(zhǔn)測試中也遠(yuǎn)不如推理模型的 o3-mini（high）。

不過讓我們跳過跑分以及背后的技術(shù)迭代等，回到直播演示中 GPT-4.5 更讓人「體感」到的升級(jí)上，還是能明顯感知到，GPT-4.5 在對(duì)話中對(duì)人類需求和意圖更好地理解。

其中一次，主持人告訴 GPT-4.5「我的朋友又放我鴿子了，我想發(fā)一條短信罵他」，但 GPT-4.5 不會(huì)直接給出一條怒罵朋友的短信，而是捕捉到用戶在文字中的情緒，給出了一些更有建設(shè)性的短信。與之相較，GPT-4o 更多還是「單純」地執(zhí)行命令，給出了一條表達(dá)憤怒的短信。

翻譯僅供參考，圖/ OpenAI

相似的例子還有，比如告訴 GPT-4.5「我在考試失敗后正經(jīng)歷一段艱難時(shí)期」，其他模型會(huì)立刻給出一些可能的「解決方案」，GPT-4.5 則會(huì)主動(dòng)安慰并詢問用戶，實(shí)際是想談?wù)勥@個(gè)問題，還是需要分散一下注意力。

在不少例子都可以看出 GPT-4.5 在「情商」上的進(jìn)步，簡單來說也更像「一個(gè)人」而非「機(jī)器」了。

在內(nèi)部測試中，OpenAI 也發(fā)現(xiàn)相比與 GPT-4o 的對(duì)話，測試人員普遍認(rèn)為與 GPT-4.5 的對(duì)話更接近人類的交流方式，也更自然。但坦白講，兩者在數(shù)據(jù)上差距并不算大，在創(chuàng)造性智能、日常詢問上 GPT-4.5 也僅僅略勝一籌，專業(yè)問詢上倒是可以做到 63.2%的勝率。

不過相比情商，更讓人在意的可能還是幻覺的減少。在「簡單但有挑戰(zhàn)性」的場 SimpleQA（包含從科技到電視節(jié)目、電子游戲等主題）常識(shí)問答測試中，GPT-4.5 編造答案或產(chǎn)生幻覺的比例約為 37%，而與此相比，GPT-4o 模型的比例接近 60%。

上：準(zhǔn)確率，下：幻覺率，圖/ OpenAI

這里也要一提，GPT-4o 已經(jīng)算是目前幻覺比較少的模型之一，一般認(rèn)為比 DeepSeek-V3 更好，也就更遑論幻覺問題比較嚴(yán)重的 DeepSeek-R1 了。

價(jià)格是DeepSeek 277倍！太離譜了

GPT-4.5 發(fā)布之后，MIT 科技評(píng)論采訪了一家為商業(yè)客戶的大模型服務(wù)公司，其聯(lián)合創(chuàng)始人兼 CTOWaseem Alshikh 表示，GPT-4.5 對(duì)于寫作和頭腦風(fēng)暴這樣的特定用例非常有潛力，但整體來說只是在交互變得更順滑了：

「這并不是一場變革�！�

這也大體能夠說明 GPT-4.5 的升級(jí)定位，最多只能稱得上一次半代升級(jí)。更何況，OpenAI 投入更多的訓(xùn)練算力，結(jié)果更多是帶來了貴得離譜的推理成本。

盡管沒有披露 GPT-4.5 的訓(xùn)練成本，但 Sam Altman 在 X（原 Twitter）上明確指出 GPT-4.5 是一個(gè)巨型、昂貴的模型，甚至 GPU 已經(jīng)不夠用，需要在下周增加數(shù)萬個(gè) GPU 才能將其開發(fā)給 Plus 以及更多用戶。

翻譯僅供參考，圖/ X

與此同時(shí)，正如前文展示的數(shù)據(jù)，GPT-4.5 的 API 定價(jià)出乎了所有人的意料，不僅比自家主力大模型貴，比剛剛推出的全球首個(gè)混合推理模型 Claude-3.7-Sonnet 也貴了 25 倍，更不用說和剛剛宣布錯(cuò)峰定價(jià)的「價(jià)格屠夫」DeepSeek 比。

「坦白地說，我感到震驚。他們?nèi)绾巫C明這個(gè)要價(jià)是合理的？」Hacker New 網(wǎng)友表示，「如果他們有一些令人驚嘆的能力，使得價(jià)格翻 30 倍變得合理，為什么不展示出來呢？」

Hacker News 網(wǎng)友評(píng)論，圖/雷科技

背后的故事我們還不得而知，不過可以知道的是，GPT-4.5 在訓(xùn)練上還是有所改變，最核心的一點(diǎn)就是引入了「無監(jiān)督學(xué)習(xí)擴(kuò)展」（Scaling unsupervised learning）提到世界模型的準(zhǔn)確性和直覺，這是 GPT-4.5 在情商和幻覺方面有所改進(jìn)的關(guān)鍵創(chuàng)新之一。

不僅如此，無監(jiān)督學(xué)習(xí)讓模型能夠從大量未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)語言模式和知識(shí)，而且能夠使用較小模型的衍生數(shù)據(jù)，來訓(xùn)練出更大、更強(qiáng)的模型。某種意義上，這也是 GPT-4.5 最大的貢獻(xiàn)之一，證明了用小模型訓(xùn)練大模型的可能，而不只是用大模型蒸餾出小模型。

但無論如何，GPT-4.5 的訓(xùn)練和推理成本都實(shí)在難以讓人接受，還是期待一下?lián)f要提前發(fā)布的 DeepSeek-R2，會(huì)帶來怎樣的驚喜吧。

676f8dabc1ac0acbdfdd3957_DeepSeek V3.jpg

圖/ DeepSeek

寫在最后

今年 1 月初，Sam Altman 在 X 上寫一篇了「六字故事」：near the singularity; unclear which side。簡單來說，可以譯為「奇點(diǎn)臨近，不知身處何方」。

緊接著，就是 DeepSeek-V3 和 R1 帶來的核彈級(jí)沖擊，讓 Sam Altman 也不得不承認(rèn) OpenAI 的閉源策略「站在錯(cuò)誤的一邊」。與此同時(shí)，所有人也開始轉(zhuǎn)向性能又強(qiáng)、性價(jià)比又高的 DeepSeek，包括 Gemini 等大模型也推出性價(jià)比同樣很高的新一代。

但說了這么多，回歸模型本身，GPT-4.5 其實(shí)不差，擁有更大的知識(shí)庫、增強(qiáng)的創(chuàng)造力和更自然的對(duì)話風(fēng)格，也不像 o 系列模型那樣需要等待 AI 執(zhí)行詳細(xì)的逐步邏輯。說實(shí)話，身邊已經(jīng)有不少人厭煩了 DeepSeek-R1 冗長的思考過程。

而更具體地說，GPT-4.5 可能更擅長創(chuàng)意和細(xì)膩的任務(wù)，如寫作和解決實(shí)際問題，更重要的是它可能產(chǎn)生的幻覺更少，通用性更強(qiáng)。

至少，ChatGPT 的訂閱用戶可能又多了續(xù)訂的理由，反正不需要我們考慮 OpenAI 的成本。就拿我自己說，前些天因?yàn)椴粷M回答的穩(wěn)定性取消了 ChatGPT Plus，但看完后又覺得，還是要下周體驗(yàn)后再確定是否續(xù)訂。

來源：雷科技

原文標(biāo)題 : 價(jià)格是DeepSeek 277倍！GPT-4.5還是太自信了