逆天!舊Mac上能run千億參數(shù)SOTA!效果驚人:一次生成游戲,0修改!本地大模型拐點(diǎn)來(lái)了!網(wǎng)友:別被大模型敘事帶偏了(附指南)
原創(chuàng) 精選編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
起猛了,連老電腦都能跑智譜家新一代的 SOTA 模型了!
一篇來(lái)自技術(shù)人 Simon Willison(Python 知名 Web 框架 Django 的共同創(chuàng)始人)的實(shí)測(cè)文章,在 Hacker News 上引發(fā)熱議:
“我 2.5 年高齡的舊筆記本,現(xiàn)在不僅能在本地跑千億參數(shù)模型,甚至還能用它寫(xiě)出一款完整的 JavaScript 太空入侵者游戲?!?/p>
圖片

這個(gè)模型,正是昨天新鮮出爐的 GLM-4.5 系列。
雖然不像 Qwen Coder 那樣專門(mén)為編程打造,但根據(jù)官方基準(zhǔn)測(cè)試, GLM-4.5在代碼生成上的表現(xiàn)已經(jīng)逼近 Claude Sonnet 4,屬于真正意義上“會(huì)寫(xiě)代碼的大模型”。
圖片
Simon 所用的,是其中參數(shù)最少的版本 GLM-4.5 Air:
參數(shù)量依然高達(dá) 1060 億,原始模型體積高達(dá) 205.78GB。
為了讓它能在普通高配筆記本上也能運(yùn)行,開(kāi)發(fā)者 Ivan Fioravanti 特地制作了一個(gè) 3bit、僅 44GB 的量化版本,專為 MLX 框架優(yōu)化,剛好能在 64GB 內(nèi)存的 MacBook Pro 上跑起來(lái)。
模型地址:https://huggingface.co/mlx-community/GLM-4.5-Air-3bit
這意味著更多普通開(kāi)發(fā)者,也能在本地運(yùn)行一個(gè)千億參數(shù)級(jí)的模型了。
Simon 的感嘆也很直接:
本地跑大模型的拐點(diǎn),真的來(lái)了!
他回憶道:
“兩年前我剛試用 LLaMA,從沒(méi)想過(guò)同一臺(tái)筆記本,有朝一日能流暢運(yùn)行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 這些擁有強(qiáng)大能力的模型。”
一臺(tái)不算新的筆記本 + 一個(gè)免費(fèi)開(kāi)源模型,就能跑出完整游戲代碼。
那么,Simon 是如何在有限算力下實(shí)現(xiàn)這一切的?繼續(xù)往下看。
1.一次生成完整游戲,無(wú)需修改!3bit 模型的實(shí)戰(zhàn)表現(xiàn)令人驚艷
即使被壓縮到 3bit、僅 44GB,GLM-4.5 Air 依然保留了完整的 1060 億參數(shù)——這也是它能跑出完整 JavaScript 游戲的底氣所在。
作者給出的提示詞相當(dāng)簡(jiǎn)潔:
寫(xiě)一個(gè)實(shí)現(xiàn)《太空侵略者》游戲的 HTML 和 JavaScript 頁(yè)面
模型思考片刻后,生成了一段完整的代碼,結(jié)構(gòu)清晰、邏輯自洽
開(kāi)頭的系統(tǒng)提示也很“專業(yè)”:
<think>用戶想讓我用 HTML、CSS 和 JavaScript 創(chuàng)建一個(gè)《太空侵略者》游戲。我需要實(shí)現(xiàn)以下功能:
玩家飛船:能左右移動(dòng)并發(fā)射子彈
敵方入侵者:成編隊(duì)移動(dòng)并反擊
分?jǐn)?shù)追蹤 生命值/健康系統(tǒng)
游戲結(jié)束條件 [...]
接著就是完整的 HTML 與 JS 代碼,直接可運(yùn)行,不用修改一行。
調(diào)試輸出如下:
- 提示詞:14 tokens,生成速度 14.095 tokens/s
 - 生成內(nèi)容:4193 tokens,生成速度 25.564 tokens/s
 - 峰值內(nèi)存占用:47.687 GB
 
這個(gè)速度在本地部署模型中相當(dāng)優(yōu)秀,接近一些云端托管模型的實(shí)際表現(xiàn)(尤其考慮到官方所給的速度數(shù)據(jù)通常是在零延遲的理想環(huán)境下測(cè)得)。
內(nèi)存使用上接近 48GB,意味著一臺(tái) 64GB 內(nèi)存的機(jī)器可穩(wěn)穩(wěn)支持——對(duì)本地推理來(lái)說(shuō),已經(jīng)非常親民。
作為對(duì)比,2024 年中發(fā)布的 LLaMA 3.1 70B 在推理階段通常需要 350GB–500GB 的 GPU 顯存,加上 64GB–128GB 的系統(tǒng)內(nèi)存,幾乎是“服務(wù)器級(jí)別的門(mén)檻”。
作者還測(cè)試了一個(gè)彩蛋級(jí) benchmark——用這個(gè) 3bit 小模型生成一張“騎自行車(chē)的鵜鶘”的 SVG 圖像。提示詞是:
“生成一張鵜鶘騎自行車(chē)的 SVG 圖像”
生成效果雖然有些“抽象主義”,但不難看出這是一只“云朵風(fēng)格”的鵜鶘,騎著一輛結(jié)構(gòu)稍微殘缺了些但能看懂的自行車(chē)。
這說(shuō)明,盡管精度遠(yuǎn)不及“滿血版 GLM?4.5”,但本地模型在多模態(tài)生成上依然具備可操作性。
上圖為本地跑的GLM-4.5 Air生圖,下圖為GLM-4.5滿血版生圖??
圖片
2.指南:作者是如何運(yùn)行GLM-4.5 Air模型的
用的是 mlx-lm 庫(kù)的主分支(因?yàn)樾枰瑢?duì) GLM4 MoE 的支持),通過(guò) uv 啟動(dòng):
uv run \
  --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
  python在 Python 解釋器里,用標(biāo)準(zhǔn)的 MLX 模型運(yùn)行方式:
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")模型權(quán)重會(huì)下載到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夾,總計(jì) 44GB。
然后:
prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
response = generate(
    model, tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=8192
)這樣模型就在本地運(yùn)行了。
3.網(wǎng)友:別被大模型敘事帶偏了!低估了舊硬件 + 量化的潛力
作者Simon 總結(jié)說(shuō):
回顧一下,幾乎所有 2025 年發(fā)布的新模型都在大幅增強(qiáng)編程能力——而這條路線,已經(jīng)結(jié)出碩果——這些本地模型現(xiàn)在真的非常強(qiáng)大。
還是兩年前的那臺(tái)筆記本,但它不再是 LLaMA 1 的試驗(yàn)田,而是能穩(wěn)定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等擁有強(qiáng)大智能的新一代模型。
這背后,正是現(xiàn)代量化技術(shù)的快速成熟:
GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式,如今都已非常穩(wěn)定。在推理任務(wù)中精度損失極小,卻能帶來(lái)成倍的資源節(jié)省。
在 Hacker News 上,一位網(wǎng)友犀利指出了當(dāng)前“Scaling 敘事”的局限:
我認(rèn)為我們嚴(yán)重低估了現(xiàn)有硬件在這個(gè)領(lǐng)域的潛力。
我擔(dān)心,“痛苦教訓(xùn)(bitter lesson)” 和“計(jì)算效率邊界”的敘事,把很多聰明人引導(dǎo)到了追求規(guī)模的方向,而忽視了探索革命性新方法。現(xiàn)在的模型其實(shí)非常低效。
我們可以在訓(xùn)練后大幅壓縮權(quán)重的精度,模型依然能跑,比如生成什么“騎自行車(chē)的鵜鶘圖”。
圖片
另一位網(wǎng)友補(bǔ)充總結(jié)了這種“默認(rèn)更大更好”的慣性:
一旦你內(nèi)化了“痛苦教訓(xùn)”——也就是“更多數(shù)據(jù) + 更大計(jì)算 = 更好性能”這個(gè)邏輯后,你就不再思考,如何在計(jì)算受限的環(huán)境里榨出最強(qiáng)表現(xiàn)了。
圖片
4.寫(xiě)在最后:開(kāi)源模型的發(fā)展速度和質(zhì)量遠(yuǎn)超預(yù)期
智譜的 GLM-4.5,再次把開(kāi)源模型的能力上限推高了一大截。
如今網(wǎng)友們的“整活自由”,正是這波模型狂飆帶來(lái)的副作用。一個(gè)網(wǎng)友的留言,精準(zhǔn)地講出了許多技術(shù)人的共同心聲:
“開(kāi)源模型的發(fā)展速度和質(zhì)量,完全超出我預(yù)期。
還記得 ChatGPT 上線那會(huì)兒,市面上最強(qiáng)的開(kāi)源模型不過(guò)是 GPT-J 和 GPT-NeoX,用起來(lái)很痛苦——prompt 必須寫(xiě)得像講故事一樣非常精細(xì),不然模型根本不理你。
后來(lái) LLaMA 模型‘被泄露’,一切就變了。量化模型、微調(diào)方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……
圖片
現(xiàn)在的開(kāi)源模型,也許距離最強(qiáng)閉源模型還有 6 個(gè)月的差距——但別忘了,它們已經(jīng)能在普通筆記本上本地運(yùn)行,甚至支持微調(diào)。這一切的變化,只用了短短兩年。
評(píng)論區(qū)最多的感慨就是:真沒(méi)想到,2025 年我們能在筆記本上玩到這個(gè)水平的 AI。
你有嘗試本地部署模型嗎?
如果讓你選一個(gè)任務(wù)來(lái)測(cè)試本地大模型,你會(huì)想讓它做什么?歡迎在評(píng)論區(qū)聊聊~
參考鏈接:
1.https://news.ycombinator.com/item?id=44723316
2.https://simonwillison.net/2025/Jul/29/space-invaders/















 
 
 


















 
 
 
 