獨(dú)立開源大佬的瘋狂實(shí)驗(yàn):Claude Code蠻力出奇跡!40 分鐘跑通 DeepSeek-OCR,我一行代碼都沒寫
原創(chuàng)編輯 | 聽雨
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
當(dāng) AI 不再只是“寫代碼”,而是開始自己裝環(huán)境、跑模型、記筆記——那種感覺,像是它在學(xué)會(huì)獨(dú)立思考。
最近,開源工具Datasette創(chuàng)建者、Django 框架聯(lián)合創(chuàng)始人 Simon Willison 做了一個(gè)瘋狂實(shí)驗(yàn):他讓 Claude Code 全權(quán)接管,把 DeepSeek-OCR 在 NVIDIA Spark 上跑了起來。聽起來像是“讓 AI 去安裝另一個(gè) AI”,但結(jié)果卻令人震驚——部署成功、過程全自動(dòng)、連錯(cuò)誤都能自我修復(fù)。
這不僅是一場(chǎng)技術(shù)實(shí)驗(yàn),更像是一次預(yù)演:
當(dāng) AI 學(xué)會(huì)自己安裝 AI,自動(dòng)化科研的時(shí)代,可能真的已經(jīng)開始了。
他的實(shí)驗(yàn)是怎么做到的?話不多說,接著往下看!
1.讓 AI 幫我搞定 CUDA 地獄
這幾天,DeepSeek 發(fā)布了一個(gè)新模型:DeepSeek-OCR。這是一個(gè)大小約 6.6GB、專門針對(duì) OCR(光學(xué)字符識(shí)別)微調(diào)的模型。官方發(fā)布的版本是 PyTorch + CUDA 權(quán)重文件。
我成功地在 NVIDIA Spark上跑起來了它——靠的是讓 Claude Code全權(quán)接手、幾乎“蠻力破解”整個(gè)部署過程。
這個(gè)小項(xiàng)目總共花了我 40 分鐘(大部分時(shí)間是 Claude Code 在自動(dòng)運(yùn)行,我在吃早餐)。它串聯(lián)起了我最近一直在探索的幾個(gè)概念:我為這個(gè)問題設(shè)計(jì)了一個(gè) agentic loop(自主智能體循環(huán)),給 Claude 在 Docker 沙箱中開了完全權(quán)限,采用了“多智能體并行工作”的方式,并復(fù)用了上周我在 Spark 上做的筆記。
我知道在 Spark 上運(yùn)行PyTorch CUDA 模型可能會(huì)很折磨,于是我決定干脆把整個(gè)過程外包給 Claude Code,看看會(huì)發(fā)生什么。
結(jié)論:成功了。Claude 只用了 4 條提示(1 條長(zhǎng)提示 + 3 條短提示),就搞定了運(yùn)行 DeepSeek 模型的全部步驟,還幫我在 Spark 上執(zhí)行 OCR,并自動(dòng)生成了大量的過程筆記。
我從 Mac 通過 SSH 連接到 Spark,然后啟動(dòng)了一個(gè)新的 Docker 容器:
圖片
接著安裝 npm 并用它安裝Claude Code:
圖片
然后啟動(dòng) Claude Code,并告訴它這是在安全的沙箱環(huán)境中運(yùn)行,允許跳過權(quán)限驗(yàn)證:
圖片
它生成了一個(gè)登錄鏈接,讓我通過 Anthropic 賬戶認(rèn)證。
我先輸入了第一條指令:
圖片
然后又輸入了第二條:
圖片
我特別強(qiáng)調(diào)了要讓 Claude 持續(xù)寫入 notes.md 文件,這樣我就能復(fù)盤整個(gè)過程。
2.Claude 的“自我求生”過程
Claude 運(yùn)行了大約 13 分鐘,逐步發(fā)現(xiàn)了平臺(tái)兼容性和 PyTorch 運(yùn)行的各種問題。最后,它報(bào)錯(cuò)并“認(rèn)輸”了:
圖片
于是我鼓勵(lì)它再想辦法:
圖片
Claude 執(zhí)行了如下命令,去找PyTorch 官網(wǎng)中所有 ARM 架構(gòu)的 wheel 文件:
圖片
結(jié)果,這一步直接解鎖了問題。
Claude 回答:
“太好了!我發(fā)現(xiàn) PyTorch 2.9.0 有 ARM64 版本,并支持 CUDA 12.8、12.9 和 13.0!這正是我們需要的!”
于是 Claude 安裝了這些wheel 文件,并報(bào)告:
“好消息!PyTorch 2.9.0 能檢測(cè)到 GB10 GPU(CUDA 12.1,sm_121),雖然提示最高支持 12.0,但只是警告,不是錯(cuò)誤!讓我們嘗試推理吧?!?/p>
然后它繼續(xù)運(yùn)行,忽略警告,成功執(zhí)行了模型加載和 OCR 推理。Claude 使用的 prompt 是:
圖片
輸出結(jié)果開頭如下:
圖片
Claude 宣布任務(wù)完成,并指向輸出文件 output/result.mmd。但當(dāng)我打開文件時(shí),內(nèi)容全是空格——OCR 成功了,但輸出寫入失敗。
于是我提示它:
圖片
Claude 重新分析后發(fā)現(xiàn)問題出在prompt 的選擇上。
3.Prompt 進(jìn)化論:Claude 自動(dòng)寫出對(duì)比表
Claude 查閱了DeepSeek-OCR 的 README,發(fā)現(xiàn)不同的prompt 有不同作用:
圖片
于是它重新嘗試了全部prompt,并生成了一個(gè)詳細(xì)的 PROMPTS_GUIDE.md 文件,還附帶對(duì)比表:
圖片
并測(cè)了性能基準(zhǔn)(測(cè)試圖像尺寸 3503×1668):
圖片
最終,我讓它把所有結(jié)果、腳本和筆記打包成一個(gè) zip 文件,排除 GitHub 和 Hugging Face 倉(cāng)庫(kù)。
我把zip 中的內(nèi)容上傳到了我的GitHub 倉(cāng)庫(kù)——
simonw/research 的 deepseek-ocr-nvidia-spark文件夾。
Github鏈接:https://github.com/simonw/research/tree/main/deepseek-ocr-nvidia-spark
Claude 真的非常喜歡寫筆記——最終文件夾長(zhǎng)這樣:
圖片
收獲總結(jié):
第一次提示發(fā)出時(shí)間:15:31:07 (UTC)最后一條消息收到時(shí)間:16:10:03 (UTC)全程不到 40 分鐘,我本人只操作了 5~10分鐘。剩下時(shí)間 Claude 全自動(dòng)執(zhí)行,我在吃早餐。
過去我多次嘗試安裝 PyTorch 失敗,這次的體驗(yàn)可以說是巨大成功。我之后一定會(huì)多用這種方法。
4.經(jīng)驗(yàn)總結(jié):AI 驅(qū)動(dòng)的“自動(dòng)化科研”
這次實(shí)驗(yàn)的關(guān)鍵經(jīng)驗(yàn)有三點(diǎn):
- 輸入足夠清晰: 提供了目標(biāo)硬件的 Docker 環(huán)境、代碼和模型鏈接,以及明確的目標(biāo)。 —— 這是我之前提出的 “agentic loop” 模式的又一次實(shí)踐。
- 運(yùn)行在沙箱中:使用 claude --dangerously-skip-permissions 讓 Claude 自由執(zhí)行,不用我手動(dòng)批準(zhǔn)每條命令。
- 關(guān)鍵時(shí)刻人工干預(yù):當(dāng) Claude 卡在 CUDA 兼容性問題時(shí),我憑經(jīng)驗(yàn)指出 PyTorch 的 ARM CUDA wheel 版本存在,從而解鎖全流程。
另外,DeepSeek-OCR 本身的效果也很不錯(cuò)——只要多試幾種運(yùn)行方式,就能得到非常干凈的 OCR 結(jié)果。
5.Bonus:用 VS Code 遠(yuǎn)程監(jiān)控容器
一個(gè)小技巧分享:我在遠(yuǎn)程 Spark 上通過 SSH 啟動(dòng)了 Docker 容器后,想實(shí)時(shí)查看 Claude 在生成的文件。
于是我問 Claude:
我在遠(yuǎn)程機(jī)器上通過 SSH 啟動(dòng)了一個(gè)Docker 容器,如何讓本地 macOS 的 VS Code直接瀏覽那個(gè)容器的文件系統(tǒng)?
Claude 給出的方案非常精準(zhǔn):
- 安裝 VS Code 插件:Remote SSH和 Dev Containers
- 用命令“Remote-SSH: Connect to Host”連接遠(yuǎn)程機(jī)器(比如 spark@100.113.1.114)
- 在連接成功的窗口中運(yùn)行“Dev Containers: Attach to Running Container”,選擇目標(biāo)容器即可
搞定!VS Code 會(huì)打開一個(gè)新窗口,直接顯示容器內(nèi)的文件結(jié)構(gòu)。我能實(shí)時(shí)打開 notes.md,看到 Claude 一行行往里追加內(nèi)容,最后打包結(jié)果時(shí),還能直接右鍵下載 zip 到本地 Mac。
一句話總結(jié):Claude Code + Docker + 明確任務(wù)目標(biāo) = 讓復(fù)雜的 AI 部署工作變成“吃早餐時(shí)的自動(dòng)任務(wù)”。
6.寫在最后
在小編看來,Simon的這次實(shí)驗(yàn),證明了 AI 已經(jīng)不止能“寫代碼”,它開始學(xué)會(huì)“執(zhí)行科研”。
他只寫了 4 條提示,剩下的 40 分鐘 Claude 自動(dòng)執(zhí)行。
未來,研究者和工程師可能只需要定義任務(wù)目標(biāo),而不是親自敲每一行命令,AI 能夠幫你自動(dòng)部署模型、自動(dòng)記錄實(shí)驗(yàn)過程、自動(dòng)修復(fù)錯(cuò)誤并總結(jié)經(jīng)驗(yàn)。
這意味著科研與工程的門檻將進(jìn)一步降低,“一個(gè)人 + 一個(gè) AI” 就能完成過去一個(gè)團(tuán)隊(duì)的工作量。
當(dāng) Claude Code 能自己裝 CUDA、跑模型、做筆記,我們距離“AI 自動(dòng)化研發(fā)”真的只差一步。
那么,評(píng)論區(qū)的各位大佬們:
你覺得未來的開發(fā)者會(huì)變成什么樣?
是“讓 AI 寫代碼的人”,
還是“看 AI 寫代碼、自己喝咖啡的人”?
參考鏈接:https://simonwillison.net/2025/Oct/20/deepseek-ocr-claude-code/






























