偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Karpathy 教他的 nanochat 數單詞里有幾個“r”

發(fā)布于 2025-10-30 07:51

瀏覽

0收藏

Andrej Karpathy 剛剛分享了一件挺有意思的事：教他的超小型語言模型 nanochat d32 數單詞里有幾個字母 r。

這聽起來簡單，但對一個"大腦只有蜜蜂大小"的模型來說，難度不小。要知道，連 ChatGPT 這樣的大模型都經常在這種任務上翻車。

Karpathy 的解決方案很實用：創(chuàng)建一個叫 SpellingBee 的合成任務（代碼見文末），生成大量用戶詢問字母計數的例子，然后用這些數據對模型進行微調。

Karpathy 教他的 nanochat 數單詞里有幾個“r”-AI.x社區(qū)

關鍵在于細節(jié)。對小模型來說，你得把任務拆得很細：先把單詞標準化加引號，然后逐字母拼出來（避免分詞問題），最后用顯式計數器一個個數過去。還得教模型用兩種方法解決：手工計算和調用 Python 解釋器驗證。

這種做法有點像填鴨式教學。如果模型夠大，這種能力可能會自然涌現。但對于參數量極小的 nanochat，你只能通過在數據中過度表示這類任務，強迫它早點學會。

有人質疑這是不是過擬合。Karpathy 在回復中提到，目前所有解決方案都是"干凈的"，沒有錯誤示例。理想情況下，應該加入一些錯誤和恢復的例子，或者用強化學習讓它更魯棒。

Karpathy 教他的 nanochat 數單詞里有幾個“r”-AI.x社區(qū)

不過，有用戶測試發(fā)現，這個功能在多輪對話中不太穩(wěn)定，Karpathy說需要清空對話歷史重新開始才最可靠。這從側面說明小模型的上下文處理能力還是有限的。

Karpathy 用這個例子現場示范了在資源受限的情況下，針對性的數據增強仍然是讓小模型掌握特定能力的有效方法。雖然不夠優(yōu)雅，但確實管用。

代碼見：???https://github.com/karpathy/nanochat/blob/8892470f2975d80e6ef8c2f25d72d890beb50398/tasks/spellingbee.py??

本文轉載自??AI工程化??，作者：ully

標簽

已于2025-10-30 07:51:28修改

贊

收藏

回復

舉報

回復

相關推薦

關于AI落地“最后一公里”，這里有30條前沿洞察

mb5f8eba9bdb0af ? 3902瀏覽 ? 0回復
對比近期發(fā)布的幾個小模型，sLLM的天花板在哪里？

zhangyannni ? 6111瀏覽 ? 0回復
會“教”難“育”，AIGC卷不了教師

liutao988 ? 3092瀏覽 ? 0回復
RAG并不神秘，Lightning教您六步實現自己的RAG！

AIGC最前線 ? 3952瀏覽 ? 0回復
LLM最喜歡的隨機數是什么？答案竟是ta！

duhorse ? 3558瀏覽 ? 0回復
AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？

輕薄滴假象 ? 3169瀏覽 ? 0回復
讓Google大牛告訴你，他是如何使用LLM提升10倍效率的？

Syrupup ? 3344瀏覽 ? 0回復
機器遺忘：為什么教AI學會遺忘至關重要？

51CTO內容精選 ? 3836瀏覽 ? 0回復
Karpathy大佬預言：未來編程只需狂按tab鍵，我們整理了風頭正盛的5家初創(chuàng)

51CTO技術棧 ? 3730瀏覽 ? 1回復
增加大模型推理能力的幾個提示方法

AIRoobt ? 5799瀏覽 ? 0回復
我們一起聊聊基于快速傅里葉卷積（FFC）的故障診斷模型

xuxiangda ? 4100瀏覽 ? 0回復
OpenAI CPO 談做AI產品的幾個理念，深受啟發(fā)！

zhishan15 ? 4645瀏覽 ? 0回復
Andrej Karpathy 提出"Vibe Coding":AI 時代的新型編程范式

Syrupup ? 6935瀏覽 ? 0回復
DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法？

輕薄滴假象 ? 3176瀏覽 ? 0回復
新的推理模型編碼能力爆表！是的，那個王，他又回來了！

老蛀蟲 ? 3738瀏覽 ? 0回復
DeepSeek R2要提前發(fā)布！這是有關R2的幾個傳聞：100%國產算力部署！能耗降低25%，多模態(tài)模型！

51CTO技術棧 ? 4782瀏覽 ? 0回復
全面復現DeepSeek-R1-Zero 數學、代碼能力，訓練步數僅需R1-Zero 1/10

快手技術 ? 2307瀏覽 ? 0回復
再看GAIA Benchamrk：他是如何推動Agent系統(tǒng)的發(fā)展的？

arnoldzhw ? 1994瀏覽 ? 0回復
Karpathy的nanochat：構建企業(yè)LLM技術基線的最低成本方案

七牛云行業(yè)應用 ? 1368瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Glyph：文本轉圖片解決長上下文困境，智譜把“DeepSeek-OCR”具像化了 3天前發(fā)布
LangChain提出Agent工程化的新分層（Agent harness） 3天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

Deepseek發(fā)布最新OCR模型在實測中展現出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數量實現10倍文本壓縮的多模態(tài)突破 0回復

上一篇： AI 模擬消費者，預測購買意圖準確率達 90%

下一篇： LangChain提出Agent工程化的新分層（Agent harness）

社區(qū)精華內容

目錄

<style id="nj53n"></style>

<menuitem id="nj53n"></menuitem>