偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

發(fā)布于 2024-11-18 16:58

瀏覽

0收藏

Google DeepMind的最新版本 Gemini Exp 1114，在Chatbot Arena上取得了重要成就，憑借超過6000個(gè)社區(qū)投票，躍升至總榜第1，并在多個(gè)領(lǐng)域表現(xiàn)出色：

總排名：#3 -> #1
數(shù)學(xué)：#3 -> #1
難題解答：#4 -> #1
創(chuàng)意寫作：#2 -> #1
視覺識(shí)別：#2 -> #1
編程：#5 -> #3

首先，我們要理解LLM Arena是什么。LLM Arena（或稱聊天機(jī)器人競技場）是一個(gè)評(píng)估LLM的平臺(tái)，主要目標(biāo)是促進(jìn)社區(qū)驅(qū)動(dòng)的LLM性能評(píng)估。它是最有聲望的評(píng)估平臺(tái)之一。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總榜來看，谷歌新模型Gemini（Exp 1114）分?jǐn)?shù)直漲40+，得分為1344，而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型這好像還是第一次有這樣的成績。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini-Exp-1114 在數(shù)學(xué)競技場中并列第一，性能匹敵 o1：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

要知道，以前o1剛發(fā)布的時(shí)候，很驚艷的一點(diǎn)就是它可以在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家，還可以拿下奧數(shù)金牌。

網(wǎng)友：這會(huì)兒滿血版的o1是真得出來了。。。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總體勝率熱圖上來看，Gemini 對(duì) 4o-latest 的勝率為 50%，對(duì) o1-preview 的勝率為 56%，對(duì) Claude-3.5-Sonnet 的勝率為 62%。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

除了總體排名，Gemini Exp 1114 在細(xì)分任務(wù)上獲得6項(xiàng)第一：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

可惜代碼能力遜色了一點(diǎn)，從圖中我們可以看到與 o1-mini/preview 還是有一定差距的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

目前，Gemini-Exp-1114 可以在谷歌AI Studio 對(duì)話體驗(yàn)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

官方計(jì)劃后續(xù)提供API，這個(gè)模型后續(xù)如果像Flash那樣限速免費(fèi)使用的話，我們還是可以和Cline、Continue這些編碼助手配合使用的。

一些實(shí)踐：

在一位博主的測試中，Gemini Exp 1114通過了所有的問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

感覺還不錯(cuò)。

另一位網(wǎng)友：Gemini-exp-1114 的回答令人驚訝，早期的Flash模型通常會(huì)卡在 cat-age 問題上，而Gemini-exp-1114答對(duì)了這個(gè)問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

不過 Gemini-exp-1114在被問到是誰創(chuàng)造和自己是誰時(shí)，竟然回答Anthropic 和 Claude。網(wǎng)友戲稱，最讓人感到直觀的解釋就是使用Claude生成的數(shù)據(jù)訓(xùn)練的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

然后我問了一下他一些視覺問題，相同的問題曾經(jīng)寫在這篇文章中你可以與之比較：

??https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw??

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖中有多少水果，哪一種最小，哪一種酸性最強(qiáng)，它們在貨架上的哪一排，哪一列？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū) 圖片

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖片中心的石頭被堆疊了幾塊？有沒有不是圖片場景的東西？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

你能理解這個(gè)梗圖的梗點(diǎn)在哪里嗎?

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

最后這個(gè)模型，在視覺計(jì)數(shù)上似乎不太完美，圖1、圖2分別應(yīng)該是30條船和10條船：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI進(jìn)修生??，作者： Aitrainee

標(biāo)簽

已于2024-11-18 17:01:29修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 4267瀏覽 ? 0回復(fù)
阿里開源多模態(tài)視覺語言模型，多項(xiàng)超越GPT4o與Claude 3.5-Sonnet

angel ? 1.6w瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強(qiáng)大模型--Nemotron

Aceryt ? 4380瀏覽 ? 0回復(fù)
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 3093瀏覽 ? 0回復(fù)
Claude 3.5超預(yù)期炸場！編程能力超o1，像人類一樣操作電腦，開啟Agent新時(shí)代！

51CTO技術(shù)棧 ? 3848瀏覽 ? 0回復(fù)
Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時(shí)空111 ? 3729瀏覽 ? 0回復(fù)
Anthropic AI的Claude 3.5，讓機(jī)器更懂你

Halo咯咯 ? 3507瀏覽 ? 0回復(fù)
Claude 3.5 引領(lǐng)人工智能新時(shí)代的強(qiáng)大模型

丟翅膀的魚 ? 3860瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。?em>擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 7304瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 9164瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 4136瀏覽 ? 0回復(fù)
推進(jìn)醫(yī)療人工智能：評(píng)估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 3613瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級(jí)模型

Syrupup ? 1.2w瀏覽 ? 0回復(fù)
選擇哪個(gè)Batchsize對(duì)模型效果最好？

石映飛云 ? 3234瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 2.1w瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 3287瀏覽 ? 0回復(fù)
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 2822瀏覽 ? 0回復(fù)
GPT-4o-Audio-Preview 多模態(tài)語音交互模型介紹+API的使用教程！

唐克 ? 3469瀏覽 ? 0回復(fù)
【OpenAI】 GPT-4o-realtime-preview 多模態(tài)、實(shí)時(shí)交互模型介紹+API的使用教程！

唐克 ? 5471瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Andrej Karpathy 2小時(shí)訪談：我們召喚的是幽靈，不是造動(dòng)物 | AGI 還有十年路 2025-10-22 07:36:37發(fā)布
Cursor 1.3 ~ 1.6 版本更新全梳理：終端不再掛、Agent 更聰明、上下文更可控 2025-09-24 07:20:23發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： Qwen2.5：13個(gè)新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

下一篇： Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

社區(qū)精華內(nèi)容

目錄

<var id="p91md"><dl id="p91md"></dl></var>

<em id="p91md"><span id="p91md"></span></em>