偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="cbpvt"></thead>

<u id="cbpvt"></u>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4.1全網(wǎng)實(shí)測(cè)來襲，慘遭谷歌Gemini碾壓！大佬猜測(cè)：從GPT-4.5蒸餾的

作者：新智元 2025-04-16 09:30:16

人工智能新聞

兩個(gè)月后就號(hào)稱要淘汰GPT-4.5的GPT-4.1，實(shí)力究竟如何？在眾多實(shí)測(cè)中，它的表現(xiàn)的確可圈可點(diǎn)，但卻依然打不過Gemini 2.5 Pro和Claude 3.7 Sonnet。那么問題來了，OpenAI為何要發(fā)布一個(gè)遠(yuǎn)遠(yuǎn)落后于谷歌的模型？

不過兩月，GPT-4.5正式出局，前浪把后浪拍在了沙灘上。

GPT-4.1家族的出世，以更強(qiáng)編碼性能，百萬token上下文，更具性價(jià)比的價(jià)格，直接擊穿了4.5。

nano版的GPT-4.1性能足以媲美GPT-4o mini，而且速度更快，價(jià)格更便宜。

這些模型目前僅在API中提供，不過目前爆火編碼平臺(tái)Windsurf、Cursor開啟了福利大放送，七天免費(fèi)體驗(yàn)GPT-4.1。

這不，全網(wǎng)首波實(shí)測(cè)已經(jīng)來了。

GPT-4.1編碼驚艷，卻打不過Gemini 2.5

這款以超強(qiáng)編碼著稱的模型，在實(shí)際任務(wù)表現(xiàn)中又如何呢？

OpenAI科學(xué)家表示，GPT-4.1是不是推理模型，卻可以在軟件工程基準(zhǔn)測(cè)試中拿下55%高分

網(wǎng)友Flavio Adamo用同一個(gè)提示——讓小球在旋轉(zhuǎn)的六邊形中模擬自由落體，測(cè)試了GPT-4.1三款模型和GPT-4.5的編碼表現(xiàn)。

不難看出，GPT-4.1精準(zhǔn)模擬了小球物理運(yùn)動(dòng)過程，GPT-4.1-mini/GPT-4.1-nano卻差了很多意思。

GPT-4.5的實(shí)力幾乎不輸GPT-4.1。

另一個(gè)類似的測(cè)試中，讓GPT-4.1挑戰(zhàn)旋轉(zhuǎn)正方形，模擬出球體在正方形內(nèi)真實(shí)彈跳的效果。

Kaggle開發(fā)者Parul Pandey表示，用GPT-4.1創(chuàng)建用于教育物理模擬的過程非常有趣。

如下，用小球擊倒金字塔代碼生成過程中，模型讀取很少的不必要的文件，代碼結(jié)構(gòu)也非常簡(jiǎn)潔。

另一位工程師通過Windsurf讓GPT-4.1在30秒內(nèi)，便生成了一個(gè)貪吃蛇的游戲。

微軟研究員Dimitris Papailiopoulos分別用GPT-4.1、GPT-4o、GPT-4.5去畫獨(dú)角獸，推測(cè)出4.1要比4o參數(shù)量小。

有一說一，GPT-4.1生成的獨(dú)角獸是當(dāng)中最丑的那個(gè)。

沃頓商學(xué)院教授Ethan Mollick用GPT-4.1去生成飛船控制面板的p5js。他表示，相較于GPT-4，4.1進(jìn)步非常大，整體上表現(xiàn)出色。

而且，Ethan表示GPT-4.1是第四款可以在twigl中首次運(yùn)行著色器的模型。

網(wǎng)友讓GPT-4.1和Gemini 2.5 Pro去模擬一個(gè)霓虹燈照亮的賽博朋克城市夜景，4.1模型在這個(gè)案例中還是比谷歌模型強(qiáng)不少。

以上demo中，不難看出GPT-4.1的編碼性能確實(shí)非常驚艷，但從宏觀來看，仍不如Gemini 2.5 Pro、Claude 3.7 Sonnet。

Aider多語(yǔ)言編碼最新測(cè)試中，GPT-4.1得分為52.4%，接近Grok 3和DeepSeek V3。成本相較于o3-mini也降了一半。

網(wǎng)友對(duì)此吐槽到，GPT-4.1編程不如DeepSeek V3，但價(jià)格卻貴了8倍。

同樣，在最新Livebench基準(zhǔn)評(píng)估中，也同樣印證了GPT-4.1推理、編碼、數(shù)學(xué)實(shí)力比Gemini 2.5差。

Abacus.AI創(chuàng)始人Bindu Reddy表示，4.1性能在GPT-4o之上，但Livebench結(jié)果表明，新模型只是對(duì)4o的一個(gè)增量更新。

哈佛科學(xué)家Pierre Bongrand更是一針見血地指出，OpenAI首次在谷歌之后發(fā)布了一個(gè)遠(yuǎn)遠(yuǎn)落后的模型。

在GPQA Diamond知識(shí)問答基準(zhǔn)測(cè)試中，GPT-4.1系家族未達(dá)到人類博士級(jí)水平，更別提超越Gemini 2.5 Pro了。

網(wǎng)友一張惡搞圖戲稱，在OpenAI發(fā)布GPT-4和GPT-4.1期間，谷歌便將Bard進(jìn)化到最強(qiáng)Gemini 2.5版本。

今年的AI大戰(zhàn)中，顯然是OpenAI與谷歌硬碰硬的終極較量。

谷歌包圍圈已成，OpenAI依然不可小覷

隨著GPT-4.1的發(fā)布，Ai2后訓(xùn)練負(fù)責(zé)人Nathan Lambert也在第一時(shí)間發(fā)了一篇分析文章。

他表示，雖然GPT-4.1是一個(gè)小版本的更新，但這讓人們更清楚地認(rèn)識(shí)到，驅(qū)動(dòng)著最佳API業(yè)務(wù)的，是非常不同的模型。

如今，OpenAI正在用GPT-4.1，將API和ChatGPT分離。

它的模型正在優(yōu)化每一美元的智能，我們以后還將繼續(xù)看到，ChatGPT的處理方式和API業(yè)務(wù)的不同。

最近，OpenAI 一直在進(jìn)行各種小幅更新，而他們最終的愿景，就是將ChatGPT打造成一個(gè)獨(dú)立于其API的單體應(yīng)用。

上周，ChatGPT的記憶功能得到了改進(jìn)。

今天，OpenAI又宣布了一套僅限API的模型GPT-4.1，直接跟谷歌的Gemini形成了競(jìng)爭(zhēng)。

單獨(dú)來看，其實(shí)最近的發(fā)布都沒有什么顛覆性的前沿突破，畢竟性能相當(dāng)?shù)哪Ｐ?，已?jīng)存在了。

不過，從這些更新中，卻可以看出OpenAI的戰(zhàn)略重心走向。

如今，它的周活躍用戶已經(jīng)破了19億，此時(shí)，它需要的是ChatGPT及背后模型，與市場(chǎng)上任何其他AI產(chǎn)品都截然不同。

其他產(chǎn)品的中心，主要都是編碼或信息處理，與它們不同，ChatGPT則格外注重個(gè)性、氛圍感和娛樂性。

體現(xiàn)這一點(diǎn)的一個(gè)經(jīng)典例子，就是GPT-4.5連同它的高昂定價(jià)一起，正從API中被棄用，不過仍會(huì)保留在ChatGPT中。

即將發(fā)布的o3、o4或開放模型，目前還讓人看不清OpenAI的宏觀戰(zhàn)略方向。

從下圖可以看出，OpenAI傳遞的核心信息很簡(jiǎn)單——提供性能更好、推理速度更快的模型。

以下是新的OpenAI模型與谷歌Gemini每百萬Token的價(jià)格對(duì)比（單位為美元）。

OpenAI新模型:

GPT-4.1：輸入/輸出：2.00/8.00 | 緩存輸入：0.50
GPT-4.1 Mini：輸入/輸出：0.40/1.60 | 緩存輸入：0.10
GPT-4.1 Nano：輸入/輸出：0.10/0.40 | 緩存輸入：0.025

OpenAI舊模型:

GPT-4o：輸入/輸出：2.5/10.00 | 緩存輸入：$1.25
GPT-4o Mini：輸入/輸出：0.15/0.60 | 緩存輸入：$0.075

谷歌Gemini:

Gemini 2.5 Pro （≤200K Tokens）：輸入/輸出：1.25/10.00 | 緩存：不可用
Gemini 2.5 Pro （>200K Tokens）：輸入/輸出：2.50/15.00 | 緩存：不可用
Gemini 2.0 Flash：輸入/輸出：0.10/0.40 | 緩存輸入：0.025（文本/圖像/視頻），0.175 （音頻）
Gemini 2.0 Flash-Lite：輸入/輸出：0.075/0.30 | 緩存：不可用

雖然OpenAI的模型學(xué)術(shù)評(píng)估結(jié)果表現(xiàn)強(qiáng)勁，但這并未完全反映它們的實(shí)際情況。畢竟在實(shí)踐中，它們需要執(zhí)行的是重復(fù)性的小眾任務(wù)。

顯然，這些新模型是用來直接對(duì)標(biāo)Gemini Flash和Flash-Lite的（在 Gemini 2.5 Pro驚艷發(fā)布之后，備受期待的Gemini 2.5 Flash也即將面世）。

相比之下，GPT-4o-mini的性能已經(jīng)落后，且不如Flash好用。

想在API業(yè)務(wù)上取得成功，OpenAI就需要在Gemini已經(jīng)占據(jù)優(yōu)勢(shì)的這個(gè)前沿領(lǐng)域?qū)崿F(xiàn)突破。

都是從GPT-4.5蒸餾來的？

很多人已經(jīng)發(fā)現(xiàn)了：在OpenAI的官方宣傳中，這些新模型的發(fā)布模式如出一轍——有廣泛改進(jìn)，卻很少解釋具體原因。

所以幾乎可以肯定，這些五花八門的新模型，都是為了獲得更好的個(gè)性和推理能力，從GPT-4.5蒸餾而來的。

或者是在編碼和數(shù)學(xué)上，借鑒了像o3這樣的模型。

可以看出，新模型在代碼上已經(jīng)取得了重大進(jìn)步，要知道，曾經(jīng)OpenAI早期的模型在這方面曾經(jīng)差得離譜，幾乎掛0。

不過，在編碼和數(shù)學(xué)的評(píng)估上，這些新模型仍然明顯落后于Gemini 2.5（推理模型）或 Claude 3.7（可選推理模型）這樣的頂尖模型。

如今，我們正處于模型向包含推理轉(zhuǎn)變的早期階段，但究竟什么是單一的最佳模型，這個(gè)概念已經(jīng)變得更為復(fù)雜了。

這些推理模型會(huì)通過消耗遠(yuǎn)多于以往的Token，來實(shí)現(xiàn)性能的大幅提升。性能固然是王道，但若性能相當(dāng)，則是成本更低者勝出。

但先發(fā)優(yōu)勢(shì)仍難以撼動(dòng)

但說到底，對(duì)大多數(shù)普通用戶來說，上面這些技術(shù)細(xì)節(jié)其實(shí)意義不大。

對(duì)他們來說，那個(gè)被戲稱為「模型投入度」的、令人頭疼的滑塊反而更直觀——

長(zhǎng)期以來，相對(duì)于API的價(jià)格，很多人對(duì)聊天機(jī)器人的訂閱費(fèi)會(huì)更感到猶豫。

但顯然，一個(gè)日漸清晰的現(xiàn)實(shí)就是，真正個(gè)性化的、受用戶喜愛的體驗(yàn)，往往只存在于這些集成的應(yīng)用程序中。

當(dāng)然，開發(fā)者也可以通過API構(gòu)建競(jìng)品，積累用戶交互數(shù)據(jù)，但鑒于 OpenAI在產(chǎn)品層面已經(jīng)建立起了巨大的先發(fā)優(yōu)勢(shì)，想要?jiǎng)龠^OpenAI，恐怕沒那么容易。

所有這些，都再次印證了我們的認(rèn)知：產(chǎn)品化，是當(dāng)前AI發(fā)展的重中之重。

記憶功能，以及將ChatGPT這條產(chǎn)品線與API服務(wù)進(jìn)行更清晰的切割，都有助于OpenAI鋪平未來的發(fā)展道路。

但要完全實(shí)現(xiàn)這一愿景，OpenAI前方仍有很長(zhǎng)的路要走。

責(zé)任編輯：張燕妮來源：新智元

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="gylol"><delect id="gylol"></delect></menuitem>