偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4.1淘汰了4.5!全系列百萬上下文,主打一個(gè)性價(jià)比

人工智能 新聞
新模型系列更新,一共帶來三個(gè)版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano。

4.1與4.5孰大?OpenAI剛剛給出答案:

發(fā)布GPT-4.1,比GPT-4.5強(qiáng)的那種。

圖片

新模型系列更新,一共帶來三個(gè)版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——

與通常中杯大杯超大杯的設(shè)置不同,這回翻譯過來,是中杯、小杯、超小杯。

OpenAI表示,4.1系列是API專供,不過列位非開發(fā)者先別急哈,人家也補(bǔ)充了,在ChatGPT里,4.1的能力將主要通過“融入最新版本的GPT-4o”體現(xiàn)。

能力方面,總結(jié)起來4.1系列紙面上最突出的優(yōu)勢有兩點(diǎn):

長上下文,3個(gè)型號(hào)均擁有100萬token上下文窗口;

性價(jià)比,用內(nèi)部老哥的說法就是:

現(xiàn)在你可以用4%的價(jià)格,暢享GPT-4o模型品質(zhì)。

圖片圖片

OpenAI還表示,GPT-4.1系列會(huì)在API里取代GPT-4.5 Preview,后者將于今年(2025年)7月14日下架。

GPT-4.1:主打性價(jià)比

展開來看,OpenAI整體上是把GPT-4.1和GPT-4o拿來對(duì)比的。

圖片

以延遲為橫軸,以智能為縱軸,可以看到,GPT-4.1比GPT-4o強(qiáng)了一丟丟,而4.1 mini則超出了4o mini一大截。

定量比較的結(jié)果是,編碼方面,GPT-4.1在衡量真實(shí)世界軟件工程技能的SWE-bench Verified上得分為54.6%,比GPT-4o的分?jǐn)?shù)提高了21.4%,比GPT-4.5強(qiáng)了26.6%。

圖片

指令遵循方面,在MultiChallenge基準(zhǔn)中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。

圖片

長上下文方面,在多模態(tài)長下文理解基準(zhǔn)Video-MME上,GPT-4.1刷新SOTA,在長篇無字幕類別中得分72.0%,比GPT-4o高了6.7%。

圖片

值得注意的是,GPT-4.1 mini在多項(xiàng)基準(zhǔn)測試中超過了GPT-4o。

比如在智能評(píng)估基準(zhǔn)MMLU上,GPT-4.1 mini的得分為87.5%,超過了GPT-4o的85.7%,同時(shí)延遲降低一半,成本降低83%

圖片

GPT-4.1 nano則被定位為OpenAI“目前速度最快、成本最低”的模型。并且在部分測試中有超出GPT-4o mini的表現(xiàn)。

編碼能力

OpenAI著重強(qiáng)調(diào)了GPT-4.1的編碼能力。除了在各種編程任務(wù)上都超過GPT-4o,OpenAI還演示了其在前端編程方面的實(shí)際優(yōu)勢:

能夠創(chuàng)建功能更強(qiáng)大、更美觀的Web應(yīng)用。

人類評(píng)分的結(jié)果顯示,在80%的對(duì)比測試中,GPT-4.1的網(wǎng)站都比GPT-4o的網(wǎng)站更受歡迎。

比如給出同一段提示詞:

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

GPT-4o生成的網(wǎng)站長這樣:

圖片

而4.1的結(jié)果明顯更美觀:

圖片

手快的網(wǎng)友則已經(jīng)搞出了大家更想看的——小球測試。

BTW,OpenAI提到,GPT-4.1會(huì)在API里取代GPT-4.5,GPT-4.5 Preview將在3個(gè)月后(2025年7月14日)徹底關(guān)閉,但這位老哥表示:我還是更喜歡4.5啊啊啊。

不過,老哥也坦承:4.5雖好,但4.1確實(shí)便宜太多啦(30倍價(jià)差)。

圖片

百萬長上下文

再來看一眼長上下文方面,GPT-4.1的具體表現(xiàn)。

大海撈針實(shí)驗(yàn)中,面對(duì)100萬token上下文檢索,3個(gè)型號(hào)均能100%過關(guān)。

圖片

OpenAI還開源了一個(gè)新的評(píng)估平臺(tái)OpenAI-MRCR,以測試模型檢索和理解多條信息、并理解信息之間相互關(guān)系的能力。也就是說更接近實(shí)際應(yīng)用中,大家對(duì)長上下文的真實(shí)需求。

結(jié)果如下:

圖片圖片圖片

還發(fā)布了一個(gè)用于評(píng)估多跳上下文推理的數(shù)據(jù)集Graphwalks。所謂多跳,即在長上下文中進(jìn)行多次邏輯跳躍,比如編寫代碼時(shí)在多個(gè)文件之間跳轉(zhuǎn)。

在這個(gè)基準(zhǔn)上,GPT-4.1與o1性能相當(dāng),輕松擊敗了GPT-4o。

圖片

性價(jià)比仍不如DeepSeek R1

價(jià)格方面,相對(duì)于自家貴得要命的模型,GPT-4.1系列無疑是便宜的。

尤其是對(duì)比要被替代的GPT-4.5 Preview,2刀/百萬tokens vs 75刀/百萬tokens,價(jià)格屬于大砍一刀只剩零頭了。

圖片

但精明的網(wǎng)友們發(fā)現(xiàn),還是比不上DeepSeek R1:

圖片

△圖源:x@bongrandp

One More Thing

以上,你覺得GPT-4.1如何?

反正這個(gè)命名方式確實(shí)是蠻值得吐槽的。

但沒準(zhǔn)兒,OpenAI的意思是…4.10>4.5?

圖片

至少奧特曼本尊有被說服到(doge)。

他還自嘲了一波:

我們能不能在今天夏天之前搞定我們的模型命名?在此之前每個(gè)人都可以再花幾個(gè)月時(shí)間來取消我們(我們活該)。

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-15 07:26:16

2025-04-15 08:51:05

2025-04-15 06:41:41

2025-04-15 07:41:18

2025-05-15 09:16:00

2025-04-16 09:30:16

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2012-12-31 10:01:34

SELinuxSELinux安全

2024-02-20 13:31:46

模型數(shù)據(jù)

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2022-09-14 13:13:51

JavaScript上下文

2024-04-07 00:45:00

開源模型

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2025-04-21 16:27:18

AIGPT?3.5工具

2017-12-17 17:01:23

限界上下文系統(tǒng)模型

2022-10-28 16:24:33

Context上下文鴻蒙

2024-09-30 14:10:00

2025-03-18 08:14:05

2023-07-11 10:02:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)