偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首

人工智能 新聞
谷歌發(fā)布了 Gemini 2.0 Flash Thinking 推理模型的加強(qiáng)版,并再次登頂 Chatbot Arena 排行榜。

就在國內(nèi)各家大模型廠商趁年底瘋狂卷的時候,太平洋的另一端也沒閑著。

就在今天,谷歌發(fā)布了 Gemini 2.0 Flash Thinking 推理模型的加強(qiáng)版,并再次登頂 Chatbot Arena 排行榜。

圖片

谷歌 AI 掌門人 Jeff Dean 親發(fā)賀信:「我們在此實驗性更新中引入了 1M 長的上下文,以便對長篇文本(如多篇研究論文或大量數(shù)據(jù)集)進(jìn)行更深入的分析。經(jīng)過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾?!?/span>

圖片

試用鏈接:https://aistudio.google.com/prompts/new_chat

讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發(fā)黯然失色。

Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其經(jīng)過專門訓(xùn)練,可使用思維(thoughts)來增強(qiáng)其推理能力。發(fā)布之初,這款大模型就登頂了 Chatbot Arena 排行榜。

在技術(shù)上,Gemini 2.0 Flash Thinking 主要有兩點突破:可處理高達(dá) 1M token 的長上下文理解;能在多輪對話和推理中自我糾錯。

Gemini 2.0 Flash Thinking 的一大亮點是會明確展示其思考過程。比如在 Jeff Dean 當(dāng)時展示的一個 demo 中,模型解答了一個物理問題并解釋了自己的推理過程,整個過程耗時 1 分多鐘。

而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實際體驗比 Jeff Dean 描述的還要快。

圖片

再看 Gemini 2.0 Flash Thinking 的成績,那也是相當(dāng)亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數(shù)學(xué)能力測試)、GPQA Diamond(科學(xué)能力測試)和 MMMU(多模態(tài)推理能力)進(jìn)步迅速,特別是數(shù)學(xué)成績,提升了 54%。

圖片

從折線圖來看,即使是比較對象是一個月前的自己,也取得了顯著的提升。

圖片

與此同時,在 AGI House 舉辦的活動中,Jeff Dean 和研究科學(xué)家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細(xì)節(jié)。

進(jìn)入 Gemini 2.0 Flash Thinking 的互動界面,可以發(fā)現(xiàn)谷歌把 Gemini 系列所有模型都放在了這個稱為「Google AI Studio」的界面。

從左側(cè)的菜單來看,我們可以在這里一站式地獲得 API 密鑰、創(chuàng)建提示詞、訪問實時對話、開發(fā) APP。平臺還提供了模型調(diào)優(yōu)、資源庫管理、Drive 訪問集成等進(jìn)階功能,并配備了提示詞庫、API 文檔、開發(fā)者論壇等支持資源。

但這個界面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎并不用戶友好,也缺乏介紹模型能力的文檔。Jeff Dean 對此表示,當(dāng)模型不再是實驗版而是正式發(fā)布時,谷歌將提供完整的技術(shù)報告,他們現(xiàn)在的主要目標(biāo)是讓用戶試用,再根據(jù)更多反饋改善。

圖片

Gemini 2.0 Flash Thinking 的互動界面

此外,谷歌的開發(fā)理念更偏向「全面均衡」?!肝覀儾幌MP驮谀承╊I(lǐng)域特別突出,而其他領(lǐng)域表現(xiàn)欠佳 —— 比如在讀 X 射線時表現(xiàn)出色,但解讀核磁共振時卻很糟糕。」Jeff Dean 補(bǔ)充道:「我們的目標(biāo)是打造一個真正有實力的通用模型,能夠完成用戶期待的各類任務(wù)。這需要持續(xù)改進(jìn):我們會收集用戶反饋,了解模型在哪些方面做得好,哪些方面做得不夠好。然后,獲取更多人們關(guān)心的數(shù)據(jù)來提升,確保模型在各個方向都有進(jìn)步,而不是局限在某個小范圍內(nèi) —— 雖然在數(shù)學(xué)等特定領(lǐng)域,有時也會進(jìn)行專門優(yōu)化?!?/span>

Gemini 2.0 Flash Thinking 主推的亮點是超長的上下文窗口。不過,眾所周知,很多具備長上下文窗口能力的 AI 模型都有個通?。毫闹闹汀缸兩怠沽?,說的話前言不搭后語,或者就直接「擺爛」,跳過上下文中的大段信息。

Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在對話過程中保持連貫的思維,并靈活運用之前積累的信息來完成當(dāng)前的任務(wù)。因相比混合在一起的數(shù)千億訓(xùn)練數(shù)據(jù),上下文窗口的信息對于模型來說非常清晰,因此,上下文窗口的信息對于 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準(zhǔn)確理解每個像素,然后一步步完成修改。

而從下面這個 demo 來看,Gemini 2.0 理解多模態(tài)的能力已經(jīng)躍升了一個臺階。它可以根據(jù)語音提示,實時改變這三個小圓的排布,排成一行放在界面頂部,或者排列成一個雪人。更夸張的是,Gemini 2.0 對語音、視覺和動作的融會貫通已經(jīng)達(dá)到了你說想要紫色的圓,它知道要把紅色和藍(lán)色的圓重疊在一起調(diào)色的境地。

想要如此精準(zhǔn)地理解網(wǎng)頁界面的布局和內(nèi)容,需要強(qiáng)大的邊框識別能力。Jeff Dean 揭秘,這來自 Project Mariner。Project Mariner 是一個研究性的實驗項目,旨在探索人類將如何與 AI 智能體互動,第一步就是讓 AI 理解并操作網(wǎng)頁瀏覽器。

Project Mariner 的能力類似于 Claude 的「computer use」,可以實時訪問用戶的屏幕,理解瀏覽器中圖像的含義。

圖片

傳送門:https://deepmind.google/technologies/project-mariner/

當(dāng)被問及 Gemini 系列模型是否要向更多模態(tài)進(jìn)發(fā)時,Jeff Dean 的回答是:目前谷歌正在瞄準(zhǔn) 3D 數(shù)據(jù),而且已經(jīng)有了很好的結(jié)果。

看來谷歌還攢了不少存貨,下一個突破會在哪個領(lǐng)域?讓我們拭目以待。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-30 14:10:00

2011-05-27 09:21:04

2018-05-20 15:32:56

2024-04-03 10:05:00

LLM性能基準(zhǔn)測試

2021-12-13 11:31:38

CodeJetBrains工具

2024-09-05 08:24:09

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2021-01-19 09:53:10

數(shù)據(jù)泄露漏洞攻擊

2025-02-26 00:16:56

RAGAI服務(wù)

2022-09-14 13:13:51

JavaScript上下文

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2024-09-06 13:18:58

2012-12-31 10:01:34

SELinuxSELinux安全

2025-02-06 10:21:51

2013-10-10 09:33:43

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2024-02-26 00:00:00

RAGGeminiLLM

2009-11-30 16:24:12

北京聯(lián)通計時寬帶

2020-09-15 10:27:13

邊緣計算
點贊
收藏

51CTO技術(shù)棧公眾號