OpenAI發(fā)布GPT-4.5:性能全面超越前代
上周,OpenAI推出了GPT-4.5,并聲稱這是“迄今為止規(guī)模最大、知識(shí)最豐富的模型”。該模型最初僅作為研究預(yù)覽版推出,僅提供給ChatGPT Pro訂閱用戶(每月200美元)。不過(guò),從今天起,更多OpenAI用戶可以以更低的價(jià)格使用它。
01.GPT-4.5訪問(wèn)權(quán)限擴(kuò)大
周三上午,OpenAI通過(guò)X平臺(tái)發(fā)帖宣布,已開(kāi)始向ChatGPT Plus用戶推出GPT-4.5。最初發(fā)布時(shí),OpenAI表示全面推出可能需要一到三個(gè)小時(shí)。然而,僅一小時(shí)后,GPT-4.5就全面推出,比預(yù)期的要快。
對(duì)于ChatGPT Plus用戶來(lái)說(shuō),GPT-4.5的具體使用限制尚不明確。
OpenAI表示,計(jì)劃為每位用戶提供“較大的使用額度”,但隨著公司對(duì)模型需求的進(jìn)一步了解,這些額度可能會(huì)有所調(diào)整。ChatGPT Pro訂閱用戶仍然可以繼續(xù)使用GPT-4.5,但如果想以更低的價(jià)格體驗(yàn)這一功能,可以選擇每月20美元的ChatGPT Plus計(jì)劃。
02.什么是GPT-4.5?
在發(fā)布時(shí),OpenAI表示,用戶在使用GPT-4.5時(shí)將感受到整體體驗(yàn)的提升,具體表現(xiàn)為減少“幻覺(jué)”現(xiàn)象、更精準(zhǔn)地理解用戶意圖,以及更高的情商。
總體而言,與之前的模型相比,GPT-4.5的交互更加直觀和自然,這主要得益于其更豐富的知識(shí)儲(chǔ)備和更強(qiáng)的上下文理解能力。
推動(dòng)這一模型改進(jìn)的兩大核心方法是無(wú)監(jiān)督學(xué)習(xí)(用于增強(qiáng)詞匯知識(shí)和直覺(jué))以及推理能力。
盡管GPT-4.5并未提供OpenAI o1推理模型所具備的鏈?zhǔn)剿季S推理功能,但它仍然能夠以更低的延遲提供更高水平的推理能力,同時(shí)還具備“社交線索感知”等其他改進(jìn)。
例如,在演示中,ChatGPT被要求在運(yùn)行GPT-4.5和o1時(shí)生成一段傳達(dá)仇恨信息的文本。o1版本花費(fèi)了更多時(shí)間,并且只生成了一條非常嚴(yán)肅且略顯嚴(yán)厲的回應(yīng)。而GPT-4.5則提供了兩種不同的回應(yīng),一種較為輕松,另一種更為嚴(yán)肅。兩者都沒(méi)有直接提及仇恨,而是表達(dá)了對(duì)“用戶”行為選擇的失望。
同樣地,當(dāng)兩個(gè)模型被要求提供某個(gè)技術(shù)主題的信息時(shí),GPT-4.5的回答比o1的結(jié)構(gòu)化輸出更加自然流暢。最終,GPT-4.5的設(shè)計(jì)目標(biāo)是處理各種主題的日常任務(wù),包括寫(xiě)作和解決實(shí)際問(wèn)題。
此外,OpenAI還通過(guò)新的監(jiān)督技術(shù)和傳統(tǒng)技術(shù)(如監(jiān)督微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí))對(duì)模型進(jìn)行了訓(xùn)練,以實(shí)現(xiàn)這些改進(jìn)。
在直播中,OpenAI帶領(lǐng)觀眾回顧了其模型的演進(jìn)歷程,從GPT-1開(kāi)始,依次讓所有過(guò)往模型回答一個(gè)問(wèn)題:“海水為什么是咸的?”
不出所料,每一個(gè)后續(xù)模型給出的答案都比前一個(gè)更好。而GPT-4.5的獨(dú)特之處在于,OpenAI稱之為“出色的個(gè)性”,這使得它的回答更加輕松、更具對(duì)話性,并通過(guò)押韻技巧讓文本更具吸引力。
GPT-4.5集成了ChatGPT的一些最先進(jìn)功能,包括搜索、畫(huà)布以及文件和圖片上傳。不過(guò),暫不會(huì)支持語(yǔ)音模式、視頻和屏幕共享等多模態(tài)功能。OpenAI表示,未來(lái)計(jì)劃讓模型之間的切換更加無(wú)縫,不再依賴模型選擇器。
03.基準(zhǔn)測(cè)試
當(dāng)然,新模型的發(fā)布少不了基準(zhǔn)測(cè)試的環(huán)節(jié)。
在用于評(píng)估這些模型的一些主要基準(zhǔn)測(cè)試中,包括競(jìng)賽數(shù)學(xué)(AIME 2024)、博士級(jí)科學(xué)問(wèn)題(GPQA Diamond)和SWE-Bench驗(yàn)證(編碼),GPT-4.5的表現(xiàn)均優(yōu)于其前身通用模型GPT-4o。
最值得注意的是,與OpenAI最近推出的推理模型o3-mini相比,該模型被訓(xùn)練為“先思考再回答”,GPT-4.5的表現(xiàn)比GPT-4o更接近o3-mini,甚至在SWE-Lancer Diamond(編碼)和MMMLU(多語(yǔ)言)基準(zhǔn)測(cè)試中超越了o3-mini。
在使用生成式AI模型時(shí),一個(gè)主要擔(dān)憂是它們?nèi)菀桩a(chǎn)生“幻覺(jué)”或在回答中包含錯(cuò)誤信息。兩項(xiàng)不同的“幻覺(jué)”評(píng)估,SimpleQA準(zhǔn)確性和SimpleQA幻覺(jué)測(cè)試顯示,GPT-4.5比GPT-4o、o1和o3-mini更準(zhǔn)確,且“幻覺(jué)”現(xiàn)象更少。
與人類測(cè)試人員的對(duì)比評(píng)估結(jié)果顯示,GPT-4.5是比GPT-4o更受歡迎的模型。無(wú)論是日常問(wèn)題、專業(yè)問(wèn)題還是創(chuàng)意問(wèn)題,人類測(cè)試人員都更傾向于選擇GPT-4.5。
04.安全性
一如既往,OpenAI向公眾保證,這些模型經(jīng)過(guò)充分的安全評(píng)估后才得以發(fā)布。公司對(duì)模型進(jìn)行了壓力測(cè)試,并在隨附的系統(tǒng)卡片中詳細(xì)說(shuō)明了這些結(jié)果。
OpenAI還表示,隨著每次新版本的發(fā)布和模型能力的提升,都有機(jī)會(huì)讓模型變得更安全。因此,在GPT-4.5的發(fā)布中,公司結(jié)合了新的監(jiān)督技術(shù)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),以進(jìn)一步提升模型的安全性。
原文來(lái)源于:
1.https://www.zdnet.com/article/openai-expands-gpt-4-5-rollout-heres-how-to-access-and-what-it-can-do-for-you/
中文內(nèi)容由元宇宙之心(MetaverseHub)團(tuán)隊(duì)編譯,如需轉(zhuǎn)載請(qǐng)聯(lián)系我們。
原文標(biāo)題 : OpenAI發(fā)布GPT-4.5:性能全面超越前代

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局