偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

逆天!舊Mac上能run千億參數(shù)SOTA!效果驚人:一次生成游戲,0修改!本地大模型拐點(diǎn)來(lái)了!網(wǎng)友:別被大模型敘事帶偏了(附指南)

原創(chuàng) 精選
人工智能
一篇來(lái)自技術(shù)人 Simon Willison(Python 知名 Web 框架 Django 的共同創(chuàng)始人)的實(shí)測(cè)文章,在 Hacker News 上引發(fā)熱議:“我 2.5 年高齡的舊筆記本,現(xiàn)在不僅能在本地跑千億參數(shù)模型,甚至還能用它寫(xiě)出一款完整的 JavaScript 太空入侵者游戲。”

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

起猛了,連老電腦都能跑智譜家新一代的 SOTA 模型了!

一篇來(lái)自技術(shù)人 Simon Willison(Python 知名 Web 框架 Django 的共同創(chuàng)始人)的實(shí)測(cè)文章,在 Hacker News 上引發(fā)熱議:

“我 2.5 年高齡的舊筆記本,現(xiàn)在不僅能在本地跑千億參數(shù)模型,甚至還能用它寫(xiě)出一款完整的 JavaScript 太空入侵者游戲?!?/p>

圖片圖片

這個(gè)模型,正是昨天新鮮出爐的 GLM-4.5 系列。

雖然不像 Qwen Coder 那樣專門(mén)為編程打造,但根據(jù)官方基準(zhǔn)測(cè)試, GLM-4.5在代碼生成上的表現(xiàn)已經(jīng)逼近 Claude Sonnet 4,屬于真正意義上“會(huì)寫(xiě)代碼的大模型”。

圖片圖片

Simon 所用的,是其中參數(shù)最少的版本 GLM-4.5 Air:

參數(shù)量依然高達(dá) 1060 億,原始模型體積高達(dá) 205.78GB。

為了讓它能在普通高配筆記本上也能運(yùn)行,開(kāi)發(fā)者 Ivan Fioravanti 特地制作了一個(gè) 3bit、僅 44GB 的量化版本,專為 MLX 框架優(yōu)化,剛好能在 64GB 內(nèi)存的 MacBook Pro 上跑起來(lái)。

模型地址:https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

這意味著更多普通開(kāi)發(fā)者,也能在本地運(yùn)行一個(gè)千億參數(shù)級(jí)的模型了。

Simon 的感嘆也很直接:

本地跑大模型的拐點(diǎn),真的來(lái)了!

他回憶道:

 “兩年前我剛試用 LLaMA,從沒(méi)想過(guò)同一臺(tái)筆記本,有朝一日能流暢運(yùn)行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 這些擁有強(qiáng)大能力的模型。” 

一臺(tái)不算新的筆記本 + 一個(gè)免費(fèi)開(kāi)源模型,就能跑出完整游戲代碼。

那么,Simon 是如何在有限算力下實(shí)現(xiàn)這一切的?繼續(xù)往下看。

1.一次生成完整游戲,無(wú)需修改!3bit 模型的實(shí)戰(zhàn)表現(xiàn)令人驚艷

即使被壓縮到 3bit、僅 44GB,GLM-4.5 Air 依然保留了完整的 1060 億參數(shù)——這也是它能跑出完整 JavaScript 游戲的底氣所在。

作者給出的提示詞相當(dāng)簡(jiǎn)潔:

 寫(xiě)一個(gè)實(shí)現(xiàn)《太空侵略者》游戲的 HTML 和 JavaScript 頁(yè)面 

模型思考片刻后,生成了一段完整的代碼,結(jié)構(gòu)清晰、邏輯自洽

開(kāi)頭的系統(tǒng)提示也很“專業(yè)”:

<think>用戶想讓我用 HTML、CSS 和 JavaScript 創(chuàng)建一個(gè)《太空侵略者》游戲。我需要實(shí)現(xiàn)以下功能: 


玩家飛船:能左右移動(dòng)并發(fā)射子彈 

敵方入侵者:成編隊(duì)移動(dòng)并反擊 

分?jǐn)?shù)追蹤 生命值/健康系統(tǒng) 

游戲結(jié)束條件 [...] 

接著就是完整的 HTML 與 JS 代碼,直接可運(yùn)行,不用修改一行。

調(diào)試輸出如下:

  •  提示詞:14 tokens,生成速度 14.095 tokens/s 
  •  生成內(nèi)容:4193 tokens,生成速度 25.564 tokens/s 
  •  峰值內(nèi)存占用:47.687 GB

這個(gè)速度在本地部署模型中相當(dāng)優(yōu)秀,接近一些云端托管模型的實(shí)際表現(xiàn)(尤其考慮到官方所給的速度數(shù)據(jù)通常是在零延遲的理想環(huán)境下測(cè)得)。

內(nèi)存使用上接近 48GB,意味著一臺(tái) 64GB 內(nèi)存的機(jī)器可穩(wěn)穩(wěn)支持——對(duì)本地推理來(lái)說(shuō),已經(jīng)非常親民。

作為對(duì)比,2024 年中發(fā)布的 LLaMA 3.1 70B 在推理階段通常需要 350GB–500GB 的 GPU 顯存,加上 64GB–128GB 的系統(tǒng)內(nèi)存,幾乎是“服務(wù)器級(jí)別的門(mén)檻”。

作者還測(cè)試了一個(gè)彩蛋級(jí) benchmark——用這個(gè) 3bit 小模型生成一張“騎自行車(chē)的鵜鶘”的 SVG 圖像。提示詞是:

 “生成一張鵜鶘騎自行車(chē)的 SVG 圖像” 

生成效果雖然有些“抽象主義”,但不難看出這是一只“云朵風(fēng)格”的鵜鶘,騎著一輛結(jié)構(gòu)稍微殘缺了些但能看懂的自行車(chē)。

這說(shuō)明,盡管精度遠(yuǎn)不及“滿血版 GLM?4.5”,但本地模型在多模態(tài)生成上依然具備可操作性。

上圖為本地跑的GLM-4.5 Air生圖,下圖為GLM-4.5滿血版生圖??

圖片圖片

2.指南:作者是如何運(yùn)行GLM-4.5 Air模型的

用的是 mlx-lm 庫(kù)的主分支(因?yàn)樾枰瑢?duì) GLM4 MoE 的支持),通過(guò) uv 啟動(dòng):

uv run \
  --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
  python

在 Python 解釋器里,用標(biāo)準(zhǔn)的 MLX 模型運(yùn)行方式:

from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

模型權(quán)重會(huì)下載到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夾,總計(jì) 44GB。

然后:

prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(
    model, tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=8192
)

這樣模型就在本地運(yùn)行了。

3.網(wǎng)友:別被大模型敘事帶偏了!低估了舊硬件 + 量化的潛力

作者Simon 總結(jié)說(shuō):

回顧一下,幾乎所有 2025 年發(fā)布的新模型都在大幅增強(qiáng)編程能力——而這條路線,已經(jīng)結(jié)出碩果——這些本地模型現(xiàn)在真的非常強(qiáng)大。

還是兩年前的那臺(tái)筆記本,但它不再是 LLaMA 1 的試驗(yàn)田,而是能穩(wěn)定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等擁有強(qiáng)大智能的新一代模型。

這背后,正是現(xiàn)代量化技術(shù)的快速成熟:

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式,如今都已非常穩(wěn)定。在推理任務(wù)中精度損失極小,卻能帶來(lái)成倍的資源節(jié)省。

在 Hacker News 上,一位網(wǎng)友犀利指出了當(dāng)前“Scaling 敘事”的局限:

我認(rèn)為我們嚴(yán)重低估了現(xiàn)有硬件在這個(gè)領(lǐng)域的潛力。


我擔(dān)心,“痛苦教訓(xùn)(bitter lesson)” 和“計(jì)算效率邊界”的敘事,把很多聰明人引導(dǎo)到了追求規(guī)模的方向,而忽視了探索革命性新方法。現(xiàn)在的模型其實(shí)非常低效。


我們可以在訓(xùn)練后大幅壓縮權(quán)重的精度,模型依然能跑,比如生成什么“騎自行車(chē)的鵜鶘圖”。

圖片圖片

另一位網(wǎng)友補(bǔ)充總結(jié)了這種“默認(rèn)更大更好”的慣性:

一旦你內(nèi)化了“痛苦教訓(xùn)”——也就是“更多數(shù)據(jù) + 更大計(jì)算 = 更好性能”這個(gè)邏輯后,你就不再思考,如何在計(jì)算受限的環(huán)境里榨出最強(qiáng)表現(xiàn)了。

圖片圖片

4.寫(xiě)在最后:開(kāi)源模型的發(fā)展速度和質(zhì)量遠(yuǎn)超預(yù)期

智譜的 GLM-4.5,再次把開(kāi)源模型的能力上限推高了一大截。

如今網(wǎng)友們的“整活自由”,正是這波模型狂飆帶來(lái)的副作用。一個(gè)網(wǎng)友的留言,精準(zhǔn)地講出了許多技術(shù)人的共同心聲:

 “開(kāi)源模型的發(fā)展速度和質(zhì)量,完全超出我預(yù)期。


 還記得 ChatGPT 上線那會(huì)兒,市面上最強(qiáng)的開(kāi)源模型不過(guò)是 GPT-J 和 GPT-NeoX,用起來(lái)很痛苦——prompt 必須寫(xiě)得像講故事一樣非常精細(xì),不然模型根本不理你。


后來(lái) LLaMA 模型‘被泄露’,一切就變了。量化模型、微調(diào)方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

圖片圖片

現(xiàn)在的開(kāi)源模型,也許距離最強(qiáng)閉源模型還有 6 個(gè)月的差距——但別忘了,它們已經(jīng)能在普通筆記本上本地運(yùn)行,甚至支持微調(diào)。這一切的變化,只用了短短兩年。

評(píng)論區(qū)最多的感慨就是:真沒(méi)想到,2025 年我們能在筆記本上玩到這個(gè)水平的 AI。

你有嘗試本地部署模型嗎?

如果讓你選一個(gè)任務(wù)來(lái)測(cè)試本地大模型,你會(huì)想讓它做什么?歡迎在評(píng)論區(qū)聊聊~

參考鏈接:

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/ 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-09-16 09:35:52

2022-12-26 14:00:10

模型升級(jí)

2024-03-25 12:40:19

訓(xùn)練模型

2024-03-04 13:21:00

模型訓(xùn)練

2025-08-05 09:13:12

人工智能AGIHRM

2024-01-22 08:59:00

AI

2023-06-06 14:09:32

模型開(kāi)源

2024-05-08 17:05:44

2025-10-28 08:40:00

2025-09-01 17:18:55

GoogleChatGPT模型

2023-09-01 21:12:13

GPT3.5模型微調(diào)

2023-01-31 13:25:58

SOTA生成式模型

2023-07-28 16:35:26

代碼模型

2025-04-16 09:20:00

虛擬模型數(shù)字

2024-01-10 09:00:00

OpenAILocalGPT開(kāi)源大模型

2023-09-13 10:09:00

模型數(shù)據(jù)

2025-02-13 00:00:12

LangServeDeepsee大模型

2025-07-08 03:22:00

大模型參數(shù)AI

2019-08-19 01:34:38

數(shù)據(jù)庫(kù)SQL數(shù)據(jù)庫(kù)優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)