偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

逆天!舊Mac上能run千億參數(shù)SOTA!效果驚人:一次生成游戲，0修改！本地大模型拐點(diǎn)來(lái)了!網(wǎng)友：別被大模型敘事帶偏了(附指南）

原創(chuàng) 精選

作者：伊風(fēng) 2025-07-30 14:11:55

一篇來(lái)自技術(shù)人 Simon Willison（Python 知名 Web 框架 Django 的共同創(chuàng)始人）的實(shí)測(cè)文章，在 Hacker News 上引發(fā)熱議：“我 2.5 年高齡的舊筆記本，現(xiàn)在不僅能在本地跑千億參數(shù)模型，甚至還能用它寫(xiě)出一款完整的 JavaScript 太空入侵者游戲。”

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

起猛了，連老電腦都能跑智譜家新一代的 SOTA 模型了！

一篇來(lái)自技術(shù)人 Simon Willison（Python 知名 Web 框架 Django 的共同創(chuàng)始人）的實(shí)測(cè)文章，在 Hacker News 上引發(fā)熱議：

“我 2.5 年高齡的舊筆記本，現(xiàn)在不僅能在本地跑千億參數(shù)模型，甚至還能用它寫(xiě)出一款完整的 JavaScript 太空入侵者游戲?！?/p>

圖片

這個(gè)模型，正是昨天新鮮出爐的 GLM-4.5 系列。

雖然不像 Qwen Coder 那樣專門(mén)為編程打造，但根據(jù)官方基準(zhǔn)測(cè)試， GLM-4.5在代碼生成上的表現(xiàn)已經(jīng)逼近 Claude Sonnet 4，屬于真正意義上“會(huì)寫(xiě)代碼的大模型”。

圖片

Simon 所用的，是其中參數(shù)最少的版本 GLM-4.5 Air：

參數(shù)量依然高達(dá) 1060 億，原始模型體積高達(dá) 205.78GB。

為了讓它能在普通高配筆記本上也能運(yùn)行，開(kāi)發(fā)者 Ivan Fioravanti 特地制作了一個(gè) 3bit、僅 44GB 的量化版本，專為 MLX 框架優(yōu)化，剛好能在 64GB 內(nèi)存的 MacBook Pro 上跑起來(lái)。

模型地址：https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

這意味著更多普通開(kāi)發(fā)者，也能在本地運(yùn)行一個(gè)千億參數(shù)級(jí)的模型了。

Simon 的感嘆也很直接：

本地跑大模型的拐點(diǎn)，真的來(lái)了！

他回憶道：

“兩年前我剛試用 LLaMA，從沒(méi)想過(guò)同一臺(tái)筆記本，有朝一日能流暢運(yùn)行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 這些擁有強(qiáng)大能力的模型。”

一臺(tái)不算新的筆記本 + 一個(gè)免費(fèi)開(kāi)源模型，就能跑出完整游戲代碼。

那么，Simon 是如何在有限算力下實(shí)現(xiàn)這一切的？繼續(xù)往下看。

1.一次生成完整游戲，無(wú)需修改！3bit 模型的實(shí)戰(zhàn)表現(xiàn)令人驚艷

即使被壓縮到 3bit、僅 44GB，GLM-4.5 Air 依然保留了完整的 1060 億參數(shù)——這也是它能跑出完整 JavaScript 游戲的底氣所在。

作者給出的提示詞相當(dāng)簡(jiǎn)潔：

寫(xiě)一個(gè)實(shí)現(xiàn)《太空侵略者》游戲的 HTML 和 JavaScript 頁(yè)面

模型思考片刻后，生成了一段完整的代碼，結(jié)構(gòu)清晰、邏輯自洽

開(kāi)頭的系統(tǒng)提示也很“專業(yè)”：

<think>用戶想讓我用 HTML、CSS 和 JavaScript 創(chuàng)建一個(gè)《太空侵略者》游戲。我需要實(shí)現(xiàn)以下功能：

玩家飛船：能左右移動(dòng)并發(fā)射子彈
敵方入侵者：成編隊(duì)移動(dòng)并反擊
分?jǐn)?shù)追蹤生命值/健康系統(tǒng)
游戲結(jié)束條件 [...]

接著就是完整的 HTML 與 JS 代碼，直接可運(yùn)行，不用修改一行。

調(diào)試輸出如下：

提示詞：14 tokens，生成速度 14.095 tokens/s
生成內(nèi)容：4193 tokens，生成速度 25.564 tokens/s
峰值內(nèi)存占用：47.687 GB

這個(gè)速度在本地部署模型中相當(dāng)優(yōu)秀，接近一些云端托管模型的實(shí)際表現(xiàn)（尤其考慮到官方所給的速度數(shù)據(jù)通常是在零延遲的理想環(huán)境下測(cè)得）。

內(nèi)存使用上接近 48GB，意味著一臺(tái) 64GB 內(nèi)存的機(jī)器可穩(wěn)穩(wěn)支持——對(duì)本地推理來(lái)說(shuō)，已經(jīng)非常親民。

作為對(duì)比，2024 年中發(fā)布的 LLaMA 3.1 70B 在推理階段通常需要 350GB–500GB 的 GPU 顯存，加上 64GB–128GB 的系統(tǒng)內(nèi)存，幾乎是“服務(wù)器級(jí)別的門(mén)檻”。

作者還測(cè)試了一個(gè)彩蛋級(jí) benchmark——用這個(gè) 3bit 小模型生成一張“騎自行車(chē)的鵜鶘”的 SVG 圖像。提示詞是：

“生成一張鵜鶘騎自行車(chē)的 SVG 圖像”

生成效果雖然有些“抽象主義”，但不難看出這是一只“云朵風(fēng)格”的鵜鶘，騎著一輛結(jié)構(gòu)稍微殘缺了些但能看懂的自行車(chē)。

這說(shuō)明，盡管精度遠(yuǎn)不及“滿血版 GLM?4.5”，但本地模型在多模態(tài)生成上依然具備可操作性。

上圖為本地跑的GLM-4.5 Air生圖，下圖為GLM-4.5滿血版生圖??

圖片

2.指南：作者是如何運(yùn)行GLM-4.5 Air模型的

用的是 mlx-lm 庫(kù)的主分支（因?yàn)樾枰瑢?duì) GLM4 MoE 的支持），通過(guò) uv 啟動(dòng)：

uv run \
  --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
  python

在 Python 解釋器里，用標(biāo)準(zhǔn)的 MLX 模型運(yùn)行方式：

from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

模型權(quán)重會(huì)下載到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夾，總計(jì) 44GB。

然后：

prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(
    model, tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=8192
)

這樣模型就在本地運(yùn)行了。

3.網(wǎng)友：別被大模型敘事帶偏了！低估了舊硬件 + 量化的潛力

作者Simon 總結(jié)說(shuō)：

回顧一下，幾乎所有 2025 年發(fā)布的新模型都在大幅增強(qiáng)編程能力——而這條路線，已經(jīng)結(jié)出碩果——這些本地模型現(xiàn)在真的非常強(qiáng)大。

還是兩年前的那臺(tái)筆記本，但它不再是 LLaMA 1 的試驗(yàn)田，而是能穩(wěn)定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等擁有強(qiáng)大智能的新一代模型。

這背后，正是現(xiàn)代量化技術(shù)的快速成熟：

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式，如今都已非常穩(wěn)定。在推理任務(wù)中精度損失極小，卻能帶來(lái)成倍的資源節(jié)省。

在 Hacker News 上，一位網(wǎng)友犀利指出了當(dāng)前“Scaling 敘事”的局限：

我認(rèn)為我們嚴(yán)重低估了現(xiàn)有硬件在這個(gè)領(lǐng)域的潛力。

我擔(dān)心，“痛苦教訓(xùn)（bitter lesson）” 和“計(jì)算效率邊界”的敘事，把很多聰明人引導(dǎo)到了追求規(guī)模的方向，而忽視了探索革命性新方法。現(xiàn)在的模型其實(shí)非常低效。

我們可以在訓(xùn)練后大幅壓縮權(quán)重的精度，模型依然能跑，比如生成什么“騎自行車(chē)的鵜鶘圖”。

圖片

另一位網(wǎng)友補(bǔ)充總結(jié)了這種“默認(rèn)更大更好”的慣性：

一旦你內(nèi)化了“痛苦教訓(xùn)”——也就是“更多數(shù)據(jù) + 更大計(jì)算 = 更好性能”這個(gè)邏輯后，你就不再思考，如何在計(jì)算受限的環(huán)境里榨出最強(qiáng)表現(xiàn)了。

圖片

4.寫(xiě)在最后：開(kāi)源模型的發(fā)展速度和質(zhì)量遠(yuǎn)超預(yù)期

智譜的 GLM-4.5，再次把開(kāi)源模型的能力上限推高了一大截。

如今網(wǎng)友們的“整活自由”，正是這波模型狂飆帶來(lái)的副作用。一個(gè)網(wǎng)友的留言，精準(zhǔn)地講出了許多技術(shù)人的共同心聲：

“開(kāi)源模型的發(fā)展速度和質(zhì)量，完全超出我預(yù)期。

還記得 ChatGPT 上線那會(huì)兒，市面上最強(qiáng)的開(kāi)源模型不過(guò)是 GPT-J 和 GPT-NeoX，用起來(lái)很痛苦——prompt 必須寫(xiě)得像講故事一樣非常精細(xì)，不然模型根本不理你。

后來(lái) LLaMA 模型‘被泄露’，一切就變了。量化模型、微調(diào)方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

圖片

現(xiàn)在的開(kāi)源模型，也許距離最強(qiáng)閉源模型還有 6 個(gè)月的差距——但別忘了，它們已經(jīng)能在普通筆記本上本地運(yùn)行，甚至支持微調(diào)。這一切的變化，只用了短短兩年。

評(píng)論區(qū)最多的感慨就是：真沒(méi)想到，2025 年我們能在筆記本上玩到這個(gè)水平的 AI。

你有嘗試本地部署模型嗎？

如果讓你選一個(gè)任務(wù)來(lái)測(cè)試本地大模型，你會(huì)想讓它做什么？歡迎在評(píng)論區(qū)聊聊~

參考鏈接：

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

Mac 大模型 SOTA

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="cmqpi"><track id="cmqpi"><dfn id="cmqpi"></dfn></track></legend>

<style id="cmqpi"></style>