LLMs.txt:讓大模型更懂你的 Web 文檔 原創(chuàng) 精華
編者按: 當(dāng)你向 AI 助手詢(xún)問(wèn) API 細(xì)節(jié)時(shí),它是否經(jīng)常被文檔中的導(dǎo)航欄、樣式表等無(wú)關(guān)內(nèi)容干擾,給出模棱兩可的答案?AI 助手已成為開(kāi)發(fā)者不可或缺的得力助手。然而,它們?cè)谔幚砭W(wǎng)站內(nèi)容時(shí)往往受限于有限的上下文窗口,加上 HTML 頁(yè)面中大量非核心內(nèi)容的干擾,導(dǎo)致理解效率低下。
本文深入剖析了新興的 LLMs.txt 標(biāo)準(zhǔn)如何巧妙解決這一問(wèn)題。這個(gè)由 ??Answer.AI?? 聯(lián)合創(chuàng)始人 Jeremy Howard 提出的解決方案,通過(guò)提供優(yōu)化的 markdown 格式文檔,讓 AI 系統(tǒng)能夠更準(zhǔn)確、高效地理解和處理網(wǎng)頁(yè)內(nèi)容。
作者 | Derick Ruiz
編譯 | 岳揚(yáng)
您可能已經(jīng)留意到,近期不少開(kāi)發(fā)工具都在其文檔中新增了對(duì) LLMs.txt 的支持。這個(gè)擬議中的 Web 標(biāo)準(zhǔn)正快速獲得業(yè)界的認(rèn)可,但它究竟是什么,又為何如此關(guān)鍵?
不同于專(zhuān)為搜索引擎設(shè)計(jì)的 robots.txt 和 sitemap.xml,LLMs.txt 專(zhuān)門(mén)針對(duì) LLM 推理引擎進(jìn)行了優(yōu)化。它以一種易于 LLM 推理引擎理解的方式,提供了網(wǎng)站的詳細(xì)信息。
那么,LLMs.txt 是如何在短時(shí)間內(nèi)從一項(xiàng)提案迅速演變?yōu)樾袠I(yè)趨勢(shì)的呢?
LLMs.txt Explained (Photo by J?rgen Larsen[1] on Unsplash[2])
01 Mintlify 是如何推動(dòng) LLMs.txt 普及的
11 月 14 日,Mintlify 在其文檔平臺(tái)增加了對(duì) LLMs.txt 的支持。這一動(dòng)作,使得平臺(tái)上數(shù)千個(gè)開(kāi)發(fā)工具的文檔一夜之間對(duì) LLMs 變得友好,包括 Anthropic 和 Cursor 等。
Anthropic 和其他工具很快就在 X 上宣布了他們對(duì) LLMs.txt 的支持。隨后,越來(lái)越多的由 Mintlify 托管的文檔開(kāi)始采用這一標(biāo)準(zhǔn),為 LLMs.txt 的提議創(chuàng)造了一波知名度。
這種趨勢(shì)激發(fā)了社區(qū)網(wǎng)站和工具的涌現(xiàn)。@ifox 建立了 directory.llmstxt.cloud[3],用于索引對(duì) LLMs 友好的技術(shù)文檔。@screenfluent 也很快跟進(jìn),推出了 llmstxt.directory[4]。
dotenvx 的開(kāi)發(fā)者 Mot,為其文檔網(wǎng)站制作了一個(gè)開(kāi)源生成工具[5],并將其分享出來(lái)。而 Firecrawl 的 Eric Ciarla 則開(kāi)發(fā)了一個(gè)工具[6],能夠抓取網(wǎng)站內(nèi)容并自動(dòng)生成 LLMs.txt 文件。
Anthropic 公司 Claude Relations 部門(mén)的負(fù)責(zé)人 Alex Albert,在 X 上宣布了對(duì) LLMs.txt 的支持
02 LLMs.txt 由誰(shuí)提出,其目的是什么?
??Answer.AI?? 的聯(lián)合創(chuàng)始人 Jeremy Howard 提出 LLMs.txt 是為了解決一個(gè)具體的技術(shù)難題。
人工智能系統(tǒng)在處理信息時(shí),只能依靠有限的上下文窗口,這導(dǎo)致它們?cè)诶斫恺嫶蟮奈臋n庫(kù)時(shí)會(huì)遇到困難。傳統(tǒng)的 SEO 優(yōu)化技術(shù)主要是針對(duì)搜索引擎的爬蟲(chóng)設(shè)計(jì)的,而不是針對(duì) LLM 推理引擎,因此它們無(wú)法解決這一限制。
當(dāng)人工智能系統(tǒng)直接處理 HTML 頁(yè)面時(shí),常常會(huì)被頁(yè)面中的導(dǎo)航欄、JavaScript 腳本、CSS 樣式表等非內(nèi)容性信息所干擾,這些元素占用了原本可以展示有用內(nèi)容的空間。
LLMs.txt 的出現(xiàn),恰好解決了這一問(wèn)題,它以一種 AI 能夠輕松解讀的格式,提供了 AI 所需的準(zhǔn)確信息。
Jeremy Howard 在 X 的個(gè)人資料,他是 LLMs.txt Web 標(biāo)準(zhǔn)提案的發(fā)起者
03 LLMs.txt文件到底是什么?
LLMs.txt 是一種格式嚴(yán)謹(jǐn)?shù)?markdown 文檔。其規(guī)范明確了兩種不同的文件類(lèi)型:
- /llms.txt:這是一個(gè)簡(jiǎn)化版的文檔導(dǎo)航視圖,旨在幫助 AI 系統(tǒng)迅速把握網(wǎng)站的框架結(jié)構(gòu)。
- /llms-full.txt:這是一個(gè)集成了所有文檔的完整文件,方便集中查閱。
3.1 /llms.txt
在這個(gè)文件中,開(kāi)頭需使用 H1 格式標(biāo)注項(xiàng)目名稱(chēng),并緊接著一個(gè) blockquote 格式的摘要。文件的后續(xù)部分通過(guò) H2 標(biāo)題來(lái)整理文檔鏈接。還有一個(gè)“Optional”部分,專(zhuān)門(mén)用來(lái)標(biāo)注那些相對(duì)不那么重要的資源。
有關(guān)的簡(jiǎn)單示例,可以參考 ??llmtxt.org?? 自家的 LLM.txt 文件[7]。而如果想看一個(gè)詳細(xì)且包含多種語(yǔ)言的例子,可以查閱 Anthropic 提供的文件[8]。
3.2 /llms-full.txt
與 /llms.txt 僅提供導(dǎo)航視圖和文檔結(jié)構(gòu)不同,/llms-full.txt 包含了全部的文檔內(nèi)容,這些內(nèi)容都是用 markdown 編寫(xiě)的。
上圖的內(nèi)容摘錄是來(lái)自于 Cursor 的 /llms-full.txt 文件。如需查看完整文件,請(qǐng)?jiān)L問(wèn) Cursor 的官方文檔頁(yè)面。
04 LLMs.txt vs sitemap.xml vs robots.txt
LLMs.txt 文件的功能與 sitemap.xml 和 robots.txt 等現(xiàn)行 Web 標(biāo)準(zhǔn)有著本質(zhì)的區(qū)別。
/sitemap.xml 雖然列出了所有可供索引的頁(yè)面,但對(duì)于內(nèi)容處理并無(wú)助益。AI 系統(tǒng)在處理時(shí),仍需解析復(fù)雜的 HTML,并處理冗余信息,從而使上下文窗口變得雜亂無(wú)章。
/robots.txt 文件則用于指導(dǎo)搜索引擎爬蟲(chóng)的訪問(wèn),但它同樣不提供內(nèi)容理解上的幫助。
而 /llms.txt 則專(zhuān)為解決 AI 系統(tǒng)面臨的挑戰(zhàn)而設(shè)計(jì)。它有助于克服上下文窗口的限制,刪除不必要的 tokens 和腳本,并以?xún)?yōu)化后的結(jié)構(gòu)來(lái)展示內(nèi)容,便于人工智能處理。
05 如何將 LLMs.txt 應(yīng)用于AI系統(tǒng)
與那些主動(dòng)在網(wǎng)絡(luò)中進(jìn)行搜尋的搜索引擎不同,現(xiàn)有的 LLMs 并不會(huì)自動(dòng)識(shí)別并收錄 LLMs.txt 文件。
您需要手動(dòng)將文件內(nèi)容輸入到 AI 系統(tǒng)中。操作方法包括粘貼鏈接、直接將文件內(nèi)容貼入輸入框,或者利用 AI 工具的文件上傳功能。
5.1 ChatGPT
首先,您需要前往相關(guān)文檔或 /llms-full.txt 的網(wǎng)頁(yè)地址。接著,將內(nèi)容或網(wǎng)址復(fù)制到聊天界面,提出具體問(wèn)題,說(shuō)明你想完成什么。
在 ChatGPT 中使用 llms-full.txt 文件的截圖(圖片由作者提供)
5.2 Claude
Claude 目前還不能瀏覽網(wǎng)頁(yè),所以請(qǐng)將文檔的 /llms-full.txt 文件內(nèi)容復(fù)制到剪貼板?;蛘?,也可以將其保存為 .txt 文件并上傳?,F(xiàn)在,你就可以自信地提出任何問(wèn)題,確信 Claude 擁有完整且最新的上下文信息。
在 Claude 中使用 llms-full.txt 文件的截圖(圖片由作者提供)
5.3 Cursor
Cursor 可以讓我們添加并索引外部文檔,這樣就能在對(duì)話中引用這些內(nèi)容。操作方法很簡(jiǎn)單,只需輸入 @Docs > Add new doc。隨后會(huì)出現(xiàn)一個(gè)彈窗,我們可以在那里粘貼 /llms-full.txt 文件的鏈接。之后,就能像使用其他文檔一樣,將其作為對(duì)話的上下文。
想深入了解這項(xiàng)功能,可以查閱 Cursor 的 @Docs 功能介紹[9]。
將 llms-full.txt 文件作為上下文導(dǎo)入 Cursor 的操作截圖(圖片由作者提供)
06 如何生成 LLMs.txt 文件
我們可以選用以下幾種工具來(lái)生成自己的 LLMs.txt 文件:
- Mintlify[10]:能夠自動(dòng)為在線文檔生成 /llms.txt 和 /llms-full.txt。
- llmstxt by dotenv[5]:由 dotenvx 的開(kāi)發(fā)者 Mot 提供的工具,它可以通過(guò)網(wǎng)站的 sitemap.xml 來(lái)生成 llms.txt。
- llmstxt by Firecrawl[6]:由 Firecrawl 的創(chuàng)始人 Eric Ciarla 開(kāi)發(fā)的工具,它利用 Firecrawl 抓取網(wǎng)站信息來(lái)制作 llms.txt 文件。
07 LLMs.txt 的發(fā)展方向是什么?
LLMs.txt 標(biāo)志著向以 AI 為先的文檔方向轉(zhuǎn)變。
正如 SEO 對(duì)于網(wǎng)站在搜索結(jié)果中的可見(jiàn)性至關(guān)重要一樣,擁有可供 AI 讀取的內(nèi)容對(duì)于開(kāi)發(fā)工具和文檔來(lái)說(shuō)也將變得不可或缺。
隨著越來(lái)越多的網(wǎng)站開(kāi)始使用這個(gè)文件,我們可以預(yù)見(jiàn)將出現(xiàn)新的工具和最佳實(shí)踐,以實(shí)現(xiàn)人類(lèi)和 AI 助手對(duì)網(wǎng)站內(nèi)容的共同可訪問(wèn)性。
目前,LLMs.txt 提供了一個(gè)切實(shí)有效的解決方案,幫助 AI 系統(tǒng)更深入地理解和運(yùn)用網(wǎng)絡(luò)資源,特別是在技術(shù)文檔和 API 領(lǐng)域。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Derick Ruiz
I help developer tool companies reach more devs with technical content at Abundant.dev
END
本期互動(dòng)內(nèi)容 ??
? 已經(jīng)嘗試過(guò) LLMs.txt 的同學(xué),能分享一下實(shí)施前后的效果對(duì)比嗎?
??文中鏈接??
[3]??https://directory.llmstxt.cloud/??
[4]??https://llmstxt.directory/??
[5]??https://github.com/dotenvx/llmstxt??
[6]??https://llmstxt.firecrawl.dev/??
[7]??https://llmstxt.org/llms.txt??
[8]??https://docs.anthropic.com/llms.txt??
[9]??https://docs.cursor.com/context/@-symbols/@-docs??
[10]??https://mintlify.com/??
原文鏈接:
