偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

馬斯克突然「發(fā)射」Grok-2 !??爆火AI生圖網(wǎng)友玩瘋,數(shù)學編碼追平GPT-4o

人工智能 新聞
xAI連發(fā)兩款模型Grok-2和Grok-2 mini,相較上一代在編碼、數(shù)學、推理方面性能大漲,而且在LMSYS總榜上與GPT-4o不相上下。最讓人興奮的是,最強AI生圖Flux能力已經(jīng)在??上線了。

Grok-2測試版來的,讓人猝不及防。

剛剛,Xai官方丟出一篇博文,官宣Grok-2測試版正式發(fā)布。

而且,一發(fā)就是兩彈——Grok-2 + 輕量級Grok-2 mini。

圖片

馬斯克稱,Grok進展的速度驚人,只能用坐上火箭來形容。

圖片

相較于上一代Grok-1.5,Grok-2取得了顯著的進步,在聊天、編碼、推理方面,再次刷新SOTA。

大模型競技場LMSYS上,Grok-2早期版本sus-column-r在總榜上位列第三,可與GPT-4o抗衡,碾壓Claude 3.5 Sonnet。

圖片

此外,Grok-2在「編碼」和「數(shù)學」榜單位列第2,Hard Prompts位列第4。

圖片

網(wǎng)友:馬斯克的Grok已經(jīng)是榜上第五個GPT-4級模型了,保不齊最終版哪天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在??上開啟了測試。本月底,兩個模型的API將會放出。

值得一提的是,X平臺這次還融合了爆火的Flux AI生圖能力。

圖片

這一點,今早就有網(wǎng)友提前放出了預(yù)告。

圖片

就看Grok生成美女的能力,真有點TED演講者那味兒了。

圖片

下面這位網(wǎng)友用Luma和Grok 2.0結(jié)合后,大贊做出的視頻簡直就像電影截圖一樣。

圖片

圖片

Grok-2能力如何?

Grok-2其實早就在我們身邊了,只是沒有人得知。

如前所述,早期版本sus-column-r在LMSYS平臺,接受了多種基準的評測。

在LLM排行榜中,Grok-2整體Elo評分(1281分),優(yōu)于Claude 3.5和GPT-4。

圖片

就勝率來看,Grok-2遠遠領(lǐng)先DeepSeek V2、Claude 3 Opus,相較于指令微調(diào)版的Llama 3.1超大杯,勝率為58%。

與GPT-4o和GPT-4o mini幾乎打成平手。

圖片

在Xai內(nèi)部,研究人員采用了類似的流程,以評估模型。

這里,他們訓(xùn)練了專門的AI系統(tǒng)——AI導(dǎo)師,在模擬Grok真實世界交互的任務(wù)中,與新模型進行互動。

每次互動中,AI導(dǎo)師會收到Grok生成的2個響應(yīng),并根據(jù)指南中列出的特定標準,選擇更優(yōu)的響應(yīng)。

實驗過程中,研究團隊重點評估了模型在兩個關(guān)鍵領(lǐng)域的能力:

一是遵循指令,二是提供準確、事實性的信息。

結(jié)果發(fā)現(xiàn),Grok-2利用檢索內(nèi)容進行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正確識別缺失信息、推理事件的順序,甚至剔除無關(guān)的帖子。

可以看得出,就AI導(dǎo)師的偏好來看,Grok-2勝券在握。

圖片

接下來,具體看看Grok-2在不同基準上的表現(xiàn)吧。

性能評估

研究人員在一系列基準測試中評估了Grok-2,包括推理、閱讀理解、數(shù)學、科學、寫代碼。

宏觀講,相較于之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了顯著的改進。

下圖中可以看出,Grok-2和Grok-2 mini在研究生級別科學知識(GPQA)、數(shù)學競賽問題(MATH),代碼(HumanEval)領(lǐng)域,顯著提分10%-20%。

而且,另一個值得關(guān)注的現(xiàn)象是,Grok-2 mini是小參數(shù)版本的Grok-2。

但是,Grok-2 mini的性能絲毫不輸,幾乎接近大模型的性能,可見并沒有因為參數(shù)減少,而縮減模型的性能。

圖片

與前沿模型相比,Grok-2在編碼、數(shù)學、通用知識領(lǐng)域,與GPT-4o、Llama 3 405B有一定的差距,但結(jié)果非常接近。

它遠遠超過了GPT-4 Turno、Claude 3 Opus基準的性能。

另外,在視覺化任務(wù)中,比如視覺化數(shù)學推理(MathVista)和基于文檔的問題回答(DocVQA)上,Grok-2表現(xiàn)出色。

令人驚喜的是,經(jīng)典的「strawberry難題」,也被Grok 2.0一舉攻克。

圖片

在??上的體驗

當然了,Grok模型的每次迭代,就是為了更好地服務(wù)??。

經(jīng)過幾個月的不斷改進,全面升級之后的Grok,也有了新的界面和功能。

圖片

所有的Premium和Premium+用戶,都可以訪問這次新推出的Grok-2和Grok-2 mini。

作為??上最強的AI助手,Grok-2具備文本和視覺理解的高級能力,并集成了來自平臺的實時信息。

Grok-2 mini則是一個規(guī)模較小但功能強大的模型,提供了速度和質(zhì)量之間的最佳平衡。

與前輩相比,Grok-2在廣泛的任務(wù)中更直觀、可控且多功能,無論是尋找答案、協(xié)作寫作還是解決編程任務(wù)。

圖片

圖片

最近FLUX的爆火,讓全網(wǎng)都見識到了這款文生圖模型的強勁實力。

如今,xAI正在與推出它的「Black Forest Labs」合作,嘗試利用FLUX.1來增強Grok在??上的功能。

網(wǎng)友實測生圖

拿到測試資格的網(wǎng)友們,已經(jīng)迫不及待地上手測試了。

圖片

生成喬治華盛頓這樣人物的圖片,果然FLUX最拿手。

圖片

在吃熱狗的馬斯克,有點兒不像本尊。

圖片

說到馬斯克,下面這個海盜版大家覺得如何?

圖片

還有角斗士馬斯克,以及馬斯克在火星。

圖片

此外,也有網(wǎng)友生成了一張小扎拖著腮幫子眉頭緊鎖的照片。

圖片

這位網(wǎng)友表示,Grok 2.0的生圖功能比Llama要好,而且沒有「愚蠢的護欄」。

圖片

宮殿里的豪車、美少女戰(zhàn)士、一座雕塑、魔法書院,Grok都拿捏了。

圖片

看得出來,這位網(wǎng)友主打的就是一個精致。

圖片

加菲貓頭戴紅帽,附上「Make Mondays Great Again」,可見Grok在生成帶有字體的圖像時,也非常精致。

圖片

和聊天一樣,Grok生圖還可以生成兩種不同模式的,簡言之兩種風格的圖像——趣味和常規(guī)。

圖片

網(wǎng)友分別測試了這兩種模式,趣味模式下Grok的自畫像,更像是一位故事中的圣者。

圖片

而常規(guī)模式下的自畫像,反倒有些搞笑了。

它竟把自己設(shè)想成了,(類似)一份惠靈頓牛排。

圖片

API即將上線

除了能夠在??上體驗之外,Grok-2和Grok-2 mini還將在8月底正式上線企業(yè)API平臺。

xAI表示,Grok-2的API將基于新的定制技術(shù)棧。

一方面是支持多區(qū)域推理部署,可以實現(xiàn)全球范圍的低延遲訪問。

另一方面是支持增強的安全功能,例如強制多因素認證(如使用Yubikey、Apple TouchID或TOTP),豐富的流量統(tǒng)計,以及高級計費分析(包括詳細的數(shù)據(jù)導(dǎo)出)等等。

此外,xAI還提供了一個管理API,讓開發(fā)者和企業(yè)可以將團隊、用戶和計費管理集成到現(xiàn)有的內(nèi)部工具和服務(wù)中。

圖片

接下來是什么?

自從2023年11月Grok-1發(fā)布以來,xAI一直在以驚人的速度發(fā)展。

現(xiàn)在的Grok-2和Grok-2 mini,已經(jīng)具備了更強的搜索能力和改進的回復(fù)功能,并且可以對??的帖子進行更深入的洞察。

不久之后,xAI還會??和API上發(fā)布Grok的另一個核心體驗——多模態(tài)理解預(yù)覽版。

隨著Grok-2的推出,xAI再一次站到了AI開發(fā)的前沿。并且,有了新集群的加持,模型的推理能力也將得到進一步加強。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-12 17:53:27

馬斯克AIChatGPT

2024-08-15 11:15:20

2023-07-22 13:47:57

開源項目

2024-03-18 15:00:48

Grok現(xiàn)已開源Grok-1混合專家模型

2023-12-13 08:46:33

人工智能ChatGPT機器人

2024-05-27 13:05:20

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-06-11 07:03:00

大模型開源Qwen2

2023-11-06 10:41:46

ChatGPT馬斯克

2025-05-12 09:06:00

2024-05-15 09:13:37

GPT-4oAI

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2025-01-03 15:42:59

AI模型數(shù)據(jù)

2024-12-09 14:00:00

AI生成

2025-01-16 16:39:44

2024-06-21 09:51:17

2025-03-24 08:43:00

GrokAI模型

2024-03-29 12:48:00

數(shù)據(jù)訓(xùn)練

2024-03-18 14:17:06

大模型開源人工智能

2025-06-30 01:00:00

點贊
收藏

51CTO技術(shù)棧公眾號