偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Gemini 2.5編程全球霸榜,谷歌重回AI王座!神秘模型曝光,奧特曼迎戰(zhàn)

人工智能 新聞
Gemini 2.5 Pro編程登頂,6美元性價比碾壓Claude 3.7 Sonnet。不僅如此,谷歌還暗藏著更強的編程模型Dragontail,這次是要徹底翻盤了。

谷歌,徹底打了一場漂亮的翻身仗。

aider多語言編程基準測試顯示,Gemini 2.5 Pro近出世半個多月,編程能力已經是全球第一,口碑一眾超越Claude 3.7 Sonnet。

不僅如此,除了DeepSeek,它的性價比也是最優(yōu)的,成本低至6美金。

圖片

為了強調Gemini 2.5 Pro成本優(yōu)勢,Jeff Dean還附上了超詳細TOP 10模型的成本圖。

他驕傲地表示,「有些性能不怎么樣的模型,還要比Gemini 2.5貴上2倍、3倍,甚至是30倍」。

圖片

圖片

原本,以強大編程能力著稱的Claude,成為廣大開發(fā)者的主戰(zhàn)場。如今有了Gemini 2.5,AI編程將會上演一場史上最大的「遷徙」。

更令人欣喜的是,Gemini 2.5 Pro還不是編程最強的那個。

這幾天,競技場上,突然現(xiàn)身多款據稱是谷歌開發(fā)的模型,包括Nightwhisper、Dragontail等,編程能力讓人驚艷。

圖片

網友實測發(fā)現(xiàn),毫不夸張地說,Dragontail編程能力足以摧毀Gemini 2.5 Pro。

圖片

雖不知這款模型具體何時面世,但顯然谷歌還有很多驚喜在等著我們。另一邊,奧特曼也在今日凌晨,下達戰(zhàn)書——

圖片

傳說中的GPT-4.1、滿血版o3、o4-mini大概率會發(fā)布

預計本周,AI圈又將是一場惡戰(zhàn)。

Gemini 2.5 Pro編程霸榜,性價比最優(yōu)

3月25日官宣,Gemini 2.5 Pro半個多月里,各種精彩實測讓其在全網的熱度一直居高不下。

最新aider基準測試,又為這款模型添上了一把火。官方接續(xù)Jeff Dean的圖,做了一張更加直觀可視化的表。

Aider Polyglot基準測試是評估AI模型在多語言編程能力上的重要指標,涉及C++、Go、Java、JavaScript、Python和Rust等多種編程語言。

圖片

看得出,o1是十款模型中,最貴的那個(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本為36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

這些模型成本高不說,多語言編程能力還不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在發(fā)揮最大的效用了,能夠加速Gemini 2.5 Pro token的處理速度。

圖片

在網友實測的demo中,Gemini 2.5 Pro在單次編程提示中,表現(xiàn)非常出色——創(chuàng)建一個隨著音律躍動的3D星球。

圖片

谷歌產品負責人Logan Kilpatrick忍不住美言了幾句,「想要找到這樣既前沿,又具性價比的模型,真的太難了。Gemini 2.5 Pro真的是特別的那一款」。

圖片

一直以來,Anthropic沒有解決Claude速率限制問題,還推出了每月200美金付費計劃,在開發(fā)者心中大打折扣。

圖片

谷歌Gemini 2.5 Pro憑借卓越的多語言編程能力,和超高的性價比,再次證明了谷歌在AI領域的深厚實力。

谷歌在AI領域全面獲勝

如今看來,在這場AI激烈競賽中,能全面Scaling的科技大廠,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最優(yōu)秀的AI模型,OpenAI和Anthropic目前都毫無勝算。

圖片

它在LMArena、GPQA Diamond、人類終極測試以及AIME等多項權威測評中,均排名第一。

在Aider Polyglot、Live Bench等非公開基準測試里也名列前茅。

在《寶可夢》游戲測試中,它的表現(xiàn)優(yōu)于Claude Sonnet。此外,它在創(chuàng)意寫作方面也有不錯的表現(xiàn),尤其是長文本理解能力。

圖片

更重要的是,Gemini 2.5 Pro Experimental的基準測試成績,與實際使用體驗、專業(yè)測評反饋高度吻合。

大量用戶反饋,Gemini 2.5 Pro Experimental確實是當下最強的AI模型。

這種情況在競爭激烈的AI行業(yè)實屬罕見。

圖片

此外,它速度快、成本低,谷歌甚至為用戶提供免費使用權限。

它的上下文窗口多達100萬個token,并與谷歌龐大的產品生態(tài)緊密相連。

圖片

即將發(fā)布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同樣表現(xiàn)出色。

它運行速度極快且成本極低,比競爭對手的同類模型便宜得多。

Gemini 2.5 Flash非常適合應用于邊緣計算場景,也便于集成到手機設備中。

圖片

Gemma 3是谷歌推出的開源模型,在性能上能與Llama 4、DeepSeek-V3等頂尖開源模型相媲美。

在性能和成本這兩個關鍵指標上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占據著Pareto最優(yōu)前沿。

這意味著谷歌性能最強的模型,成本控制得也很好;性價比最高的模型,性能同樣出色。

這使其成為預算有限的開發(fā)者、企業(yè)和初創(chuàng)公司的理想選擇。

圖片

在其他生成式AI領域,谷歌同樣占據著主導地位。

谷歌宣布,將把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平臺。它們在各自領域都是世界一流水平。

在智能體領域,開啟深度研究模式的Gemini 2.5 Pro,表現(xiàn)比OpenAI的深度研究功能強一倍。

圖片

Gemini與OpenAI深度研究功能的對比

彩蛋:Dragontail

近期,網上流傳著一款谷歌尚未正式發(fā)布的模型,代號「Dragontail」。

據稱其在Web開發(fā)領域表現(xiàn)驚艷,甚至超越了旗艦模型Gemini 2.5 Pro。

Dragontail最早出現(xiàn)在WebDev Arena(https://web.lmarena.ai/)的測試環(huán)境中。

經開發(fā)者測試發(fā)現(xiàn),在生成復雜用戶界面、多頁面網站和交互式應用方面,其展現(xiàn)出的能力遠超其他模型。

盡管谷歌尚未官方確認Dragontail,它在某些測試中自稱是「由谷歌訓練的LLM」,這與Gemini 2.5 Pro的回應一致。

人們猜測它可能是谷歌內部開發(fā)的下一代模型,或者Gemini系列的升級版本。

圖片

Dragontail的實力究竟如何?根據測試者的反饋,這款模型在WebDev任務中的表現(xiàn)堪稱碾壓。

Dragontail在以下幾個方面展現(xiàn)了絕對優(yōu)勢:

卓越的UI設計

Dragontail生成的UI元素,不僅功能完善,在布局、配色和交互性上也極具美感。

圖片

比如,當要求生成一個帶有復雜導航功能的零售網站時,Dragontail能輸出整潔的代碼,里面包含動態(tài)加載的商品列表、響應式設計,頁面切換效果也很流暢。

相比之下,即使是當前WebDev排行榜上表現(xiàn)出色的Gemini 2.5 Pro Experimental,在細節(jié)處理上還是差了一點,偶爾會出現(xiàn)布局不夠直觀,或交互不夠順暢的問題。

功能實現(xiàn)的完整性

Dragontail生成的Web應用,功能實現(xiàn)上幾乎沒有瑕疵。

從前端的JavaScript邏輯,到后端的API集成,它都能給出生產級別的代碼。

比如,開發(fā)者要求生成一個帶有實時數據更新的儀表盤,Dragontail不僅完成了前端可視化,還自動生成了后端模擬數據接口。

Gemini 2.5 Pro在做類似任務時,往往需要額外的提示才能把邏輯補全。

代碼質量與優(yōu)化

Dragontail的代碼風格規(guī)范,遵循現(xiàn)代Web開發(fā)的最佳實踐。

它生成的React或Vue組件結構清晰,狀態(tài)管理井井有條,還包含了錯誤處理和性能優(yōu)化。

相比之下,Gemini 2.5 Pro雖然也能生成高質量代碼,但在復雜項目中,偶爾會出現(xiàn)冗余代碼,或者不必要的復雜邏輯。

測試者一致認為,Dragontail在視覺效果、功能完整性和用戶體驗方面全面領先。

讓人懷疑,Dragontail是否代表了谷歌在Web開發(fā)AI領域的全新突破。

(注:基于WebDev Arena測試數據、開發(fā)者反饋及社交平臺X上的討論,部分信息尚未得到谷歌官方證實,具體細節(jié)以未來發(fā)布為準。)

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-26 19:18:44

模型訓練

2025-04-10 10:44:00

2025-04-16 15:30:59

模型AI數據

2023-12-12 10:57:05

AI谷歌

2025-05-21 09:04:00

2025-05-07 13:57:05

谷歌I/O版視覺

2025-05-07 10:01:35

2025-03-26 06:56:56

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2025-04-21 00:00:02

2025-01-13 12:12:19

2024-11-22 12:39:56

2025-06-23 00:00:01

2025-07-17 13:08:56

2021-04-22 15:25:29

AI 數據人工智能

2021-01-22 16:25:15

AI 數據人工智能

2025-04-21 09:15:00

2025-04-10 06:16:33

2025-10-09 09:15:00

谷歌AI模型
點贊
收藏

51CTO技術棧公眾號