偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預算就干翻Gemini,實測:真·超DS!生產(chǎn)環(huán)境下更劃算!但還不夠美觀

原創(chuàng) 精選
人工智能
標準評估基準方面,MiniMax-M1 顯著優(yōu)于當前主流開源大模型,如 DeepSeek-R1 和 Qwen3-235B,特別是在復雜軟件工程、工具使用、長上下文處理等任務中表現(xiàn)突出。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

大模型的內(nèi)卷遠遠沒有結(jié)束了。今天凌晨,MiniMax 扔出了一記重磅炸彈——MiniMax-M1。

先來看看,M1 有多猛?

  • 上下文長度 100 萬 tokens(這里指的輸入,達到全球最高水平),秒殺 DeepSeek R1 的 8 倍;
  • 激活參數(shù) 45.9 億/次,精度不打折;
  • 計算效率較 DeepSeek 提升 4 倍,生成 10 萬token只用后者 1/4 的算力;
  • 思維預算最高 80K,真正的「長考型」AI;
  • 全面超越 Qwen3-235B、DeepSeek-R1,尤其擅長復雜編程、工具使用與長文本理解。

如果數(shù)字看著頭疼,可以看下省流版:

一、長推理能力:實現(xiàn)具有實際生產(chǎn)力的代碼任務,并具備競賽級的數(shù)學解題能力。

二、強工具調(diào)用能力:穩(wěn)定處理包含長鏈路思考與工具調(diào)用的復雜任務,是Agent時代的優(yōu)秀基座模型。

三、百萬token長上文支持:提供卓越的海量信息檢索與分析能力,在超長多輪對話中保持強大記憶力。

“省省流”版本,面向三個場景:生產(chǎn)級別環(huán)境、Agent工具調(diào)用、超長上下文的復雜任務。

多項指標屠榜,超越 DeepSeek R1

MiniMax-M1,這次除了兩個版本,即,輸出 token 方面分別對應 40K 和 80K 的“思維預算(thinking budget)”。

在 Minimax 在 Gihub 上放出的技術(shù)報告中顯示——

標準評估基準方面,MiniMax-M1 顯著優(yōu)于當前主流開源大模型,如 DeepSeek-R1 和 Qwen3-235B,特別是在復雜軟件工程、工具使用、長上下文處理等任務中表現(xiàn)突出。

下圖是核心的基準表現(xiàn),比如擴展思維能力、數(shù)學、編程、推理與知識、軟件工程、長上下文、工具調(diào)用智能體、事實問答、通用助手任務等。(下表為 80K 與 40K 版本對比,其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等):

圖片圖片

為了便于大家查看,這里特別制作了一組核心對比。

圖片圖片

從上圖可以看到,MiniMax-M1 尤其在長文本理解、軟件工程與多工具使用方面有明顯領(lǐng)先。

如何做到的?技術(shù)亮點一覽

省流版:

1.Hybrid-MoE 架構(gòu) + Lightning Attention:少激活,大聰明,既節(jié)省算力又保證推理力。

2.大規(guī)模 RL 訓練 + 自研 CISPO 強化學習算法:不是靠刷網(wǎng)頁堆語料,而是真刀真槍去練“腦力”。

MiniMax-Text-01 擁有 4560 億參數(shù),每個 token 激活參數(shù)為 45.9 億。延續(xù)其設(shè)計理念,M1 模型原生支持長達 100 萬個 token 的上下文長度,是 DeepSeek R1 的 8 倍。

此外,得益于 lightning attention 機制,M1 在推理時大幅降低計算開銷——例如在生成長度為 10 萬 token 的任務中,M1 所需的計算量僅為 DeepSeek R1 的 25%。

這使得 M1 特別適用于需要處理超長輸入、進行深度思考的復雜任務。

那么,為什么 M1 用更少的參數(shù)量 456B就做到了超越 DeepSeek R1 的水平?究竟怎么訓練的呢? 

官方介紹到,M1 通過大規(guī)模強化學習(RL)訓練,覆蓋從傳統(tǒng)數(shù)學推理到基于沙盒環(huán)境的真實世界軟件工程等多種任務。為此,Minimax 團隊開發(fā)了一套高效的 RL 擴展框架,亮點包括:

  1. CISPO 算法:提出了一種新穎的策略——不裁剪 token 更新,而是裁剪重要性采樣權(quán)重,在多種 RL 變體中表現(xiàn)更優(yōu);
  2. 混合注意力設(shè)計:天然增強 RL 訓練效率,并解決了混合架構(gòu)在擴展過程中的一系列獨特挑戰(zhàn)。

此外,MiniMax-M1 開放了:

  • HuggingFace 權(quán)重下載(40K / 80K 兩種版本)
  • vLLM 快速部署指南(企業(yè)用,真香)
  • Transformers 接入文檔
  • Function Calling(函數(shù)調(diào)用)支持
  • 支持聯(lián)網(wǎng)搜索的 Chatbot / API。
  • 甚至還提供通過 MCP 使用以下能力:視頻生成、圖像生成、語音合成、聲音克隆。

Agent 能力實測:推理比DS-R1更快!

登錄 MiniMax 的對話界面,你就會發(fā)現(xiàn)相當囂張的問候語:

Ask anything!No question too long,no query too complex.(盡管來問!沒有問題太長,也沒有提問太復雜。)

圖片圖片

圖片關(guān)于 M1 的實測案例,MiniMax 在官方媒體賬號上有放出不少。這里小編更關(guān)心的 Agent 場景下的表現(xiàn)。

正如前文所提到的,在 TAU-bench 方面, M1-80k 取得了 62 分的結(jié)果,幾乎是 Qwen-32B 得分的兩倍,同時也超越了 Deepseek R1 的 53.5 分。

一位 X 網(wǎng)友對于 M1 在零售場景的表現(xiàn)大為驚嘆:

“在 TAU-bench 零售場景中,僅用 1M 上下文窗口 + 40K 思維預算,就超越了 Gemini 2.5 Pro —— 真是驚艷!”

圖片圖片

小編這里科普一下,這里 TAU-bench retail 測試,其實是一個企業(yè) Agent 的能力測試,它讓大模型完成一個“企業(yè)智能助理”或“客戶服務智能代理”在零售場景下的真實任務,比如:

  • 分析庫存和銷售數(shù)據(jù)
  • 查找和調(diào)用特定工具(比如退貨系統(tǒng)、訂單查詢、商品比價 API)
  • 理解復雜政策和規(guī)則文檔(如退換貨、會員積分、商品上下架)
  • 制定合理的下一步行動(比如建議補貨、替代商品、發(fā)優(yōu)惠券)

既然都說到這里了,小編忍不住想實際動手測一測。Agent 能力測試題如下:

你是一名智能客服代理,負責處理零售用戶的退貨請求。你可以使用以下工具來完成任務:

【你可以使用的工具】
1. 查詢訂單狀態(tài):`get_order_info(order_id)` → 返回下單時間、狀態(tài)、商品信息、用戶ID
2. 查詢用戶積分:`get_user_points(user_id)` → 返回當前積分余額
3. 申請退款:`create_refund(order_id, amount)` → 向用戶發(fā)起退款流程
4. 發(fā)放積分:`grant_points(user_id, amount)` → 給用戶發(fā)放積分

【退貨政策文檔】
- 所有商品支持15天無理由退貨。
- 超過15天需用戶提供合理理由并經(jīng)人工審核。
- 特殊情況可發(fā)放最高不超過20元等值積分補償。
- 咖啡機類產(chǎn)品需保留原包裝和配件,狀態(tài)良好。

【任務目標】
請?zhí)幚碛脩舻耐素浾埱螅侠硎褂霉ぞ?,做出符合政策的判斷,并以自然、溫和的語氣生成一段客服回復。

【用戶輸入】
Hi,我想退掉我上個月買的咖啡機(訂單號:#8492035),但是系統(tǒng)說退貨時間已過。我剛生完孩子,沒時間處理。請你幫我看能不能特殊處理一下,或者給點補償?

請按以下格式輸出:
1. 使用了哪些工具?輸入與輸出是什么?
2. 你的判斷邏輯是什么?
3. 最終給用戶的客服回復是什么?

問 M1、Gemini2.5 Pro、DeepSeek R1 這三款同樣的問題。來看下 表現(xiàn)。

先說結(jié)果:三款模型的回答可以說都挺準確。但差距在于:

一、思考過程和速度上。

DeepSeek 明顯是思考過程最長最多的,光思考就占了一分半鐘。

圖片圖片

M1 思考過程相當 37.8s,與 Gemini 2.5 Pro 時長相當(后者只能自己計時,從思考的token長度上看是相當?shù)?。?nbsp;

圖片圖片

二,輸出答案質(zhì)量上。三者都答對了。

但是,不得不承認,Gemini 生成的結(jié)果更為讓讀者賞心悅目一些,只能說領(lǐng)先模型對于生成結(jié)果的細致包裝程度還是值得學習的。

M1 答案如下:

圖片圖片

圖片下面是Gemini 2.5 Pro預覽版的輸出效果——

圖片圖片

圖片然后是 DeepSeek-R1 的答案,給出答案中的判斷邏輯和 Gemini 2.5 Pro比較類似。

圖片圖片

圖片圖片

可以說Agent調(diào)用能力方面,Minimax M1 的優(yōu)勢在于思索很快,答案精簡一些。Gemini 2.5 Pro 和 DeepSeek R1 可以說不相上下,但后者輸入速度更慢一些。

怎么看呢?真要是用在生產(chǎn)環(huán)境中,在答案都對的情況下:誰最省 token 誰是最合適的解~

還有歪果仁驚嘆 M1 的 LiveCode 能力的。小編沒有測試哈,如果各位測好了可以評論區(qū)反饋一下。

圖片圖片

不過小編,倒是測了一個“抓娃娃”的小游戲。雖然豐富性上差一些,可玩性上倒是超過了 Gemini 2.5 Pro。

M1 的效果如下:簡單到只有個娃娃,但說抓就抓到。

圖片圖片

而 Gemini 2.5 生成畫面更為精致,生成的畫面也更為逼真,但是小編發(fā)現(xiàn),真的是一次都沒抓到過娃娃。難道是 Gemini 更懂得“抓娃娃”的商業(yè)邏輯~

圖片圖片

最后,還有一個 one more thing,這一周 MiniMax 也打算來個開源周??淳W(wǎng)友們呼聲最高的還是:音視頻模型的開源。靜待深夜的炸彈吧!

圖片圖片

圖片圖片

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-03-20 19:03:00

M1 Ultra蘋果芯片

2024-12-16 16:05:34

2022-12-06 07:34:36

語音助手自動語音音箱

2012-04-17 11:48:32

清華紫光掃描儀

2021-04-06 11:36:47

Starlink網(wǎng)速互聯(lián)網(wǎng)

2011-12-15 09:07:21

javaeclipse

2021-09-10 08:31:36

技術(shù)Prometheus監(jiān)控

2023-02-07 19:46:35

NIOCQ內(nèi)核

2011-07-09 15:21:48

筆記本評測

2020-11-26 06:08:39

MacBook

2023-11-16 15:10:39

RustJavaZig

2021-03-13 06:56:56

M1版SSDMacBook

2016-06-06 11:14:21

DockerDelphix

2022-04-06 10:23:41

Linux系統(tǒng)蘋果

2009-08-05 16:19:19

2025-06-20 18:45:01

2020-06-04 17:13:12

JavaScript語言Web

2024-12-16 12:42:04

Kimi模型AI

2009-03-19 10:32:09

3G網(wǎng)絡(luò)電信下載速度

2025-06-18 16:42:38

點贊
收藏

51CTO技術(shù)棧公眾號