偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

成本降低90%！Claude上新Gemini同款提示詞緩存，一次性記住整個(gè)代碼庫

作者：量子位 2024-08-15 13:55:00

人工智能新聞

值得一提的是，DeepSeek團(tuán)隊(duì)把這項(xiàng)技術(shù)的存儲(chǔ)介質(zhì)換成了硬盤，還降低了存儲(chǔ)成本。

Claude深夜上新重磅功能——API長文本緩存。

新版API可以“記住”一整本書或整個(gè)代碼庫，不需要再重復(fù)輸入了。

這樣一來，不僅處理長文本的延時(shí)更低，更是能節(jié)省最高90%的成本。

來看看這降本的效果~

△假定重復(fù)部分為1萬Token，模型為3.5 Sonnet，只計(jì)算輸入

今年5月，谷歌在Gemini更新中提出了這項(xiàng)功能，然后是國內(nèi)的Kimi和DeepSeek團(tuán)隊(duì)，總之現(xiàn)在又輪到了Claude。

值得一提的是，廠商Anthropic的推文當(dāng)中提到，提示詞緩存功能可以讓用戶用更長、更有指導(dǎo)性的提示詞對(duì)模型進(jìn)行“微調(diào)”。

有網(wǎng)友看了之后感慨，人們本來就很難分清提示工程（prompting）和微調(diào)（fine-tune），這下更不好區(qū)分了。

當(dāng)然在這種場(chǎng)合下，也難免會(huì)有人點(diǎn)名或不點(diǎn)名地cue起隔壁的OpenAI。

成本節(jié)約高至90%

提示詞緩存的作用，就是一次給模型發(fā)送大量prompt，然后讓它記住這些內(nèi)容，并在后續(xù)請(qǐng)求中直接復(fù)用，避免反復(fù)輸入。

對(duì)此，博主Dan Shipper做了這樣的一個(gè)比喻：

假設(shè)你在一家咖啡館，第一次點(diǎn)單的時(shí)候需要告訴店員自己點(diǎn)的內(nèi)容，但是接下來再去只需要說一句“和平常一樣”就可以了。

不過需要注意的是，緩存的有效期為五分鐘，但每讀取一次計(jì)時(shí)都會(huì)被重置，一直連續(xù)提問時(shí)無需擔(dān)心。

在Claude的官方文檔中，也介紹了幾個(gè)典型的應(yīng)用場(chǎng)景，非常適合代碼和長文檔處理。

對(duì)話：降低擴(kuò)展會(huì)話的成本和延遲，尤其是包含長指令或附有文檔的會(huì)話；
代碼助理：通過在prompt保存的對(duì)代碼庫的總結(jié)，改善代碼自動(dòng)補(bǔ)全和問答功能；
大型文檔處理：在提示中納入完整的長格式材料（包括圖像），而不會(huì)增加響應(yīng)延遲；
詳細(xì)的指令集：（在多個(gè)對(duì)話中）共享詳細(xì)的指令、過程和示例列表以進(jìn)行微調(diào)Claude的回應(yīng)；
搜索和工具調(diào)用：增強(qiáng)涉及多輪工具調(diào)用和迭代更改的場(chǎng)景的性能；
長文本對(duì)話：將整個(gè)文檔（書、論文、播客腳本等）嵌入到提示中并讓用戶提出問題，從而對(duì)知識(shí)庫進(jìn)行增強(qiáng)。

由于不需要反復(fù)輸入重復(fù)的腳本，提示詞緩存具有速度更快、成本更低這兩大優(yōu)勢(shì)。

比如在基于一本10萬Tokens的圖書進(jìn)行對(duì)話時(shí)，以往模型需要11.5秒才能生成首個(gè)輸出Token，但有了提示詞緩存就只需要2.4秒，降低了79%，成本更是減少90%。

在其他場(chǎng)景中，延時(shí)和成本也有不同程度的降低。

定價(jià)上，原有的輸入和輸出Token價(jià)格不變，提示詞緩存的價(jià)格則分成了寫入和讀取兩個(gè)部分。

最小的Haiku每百萬Token的寫入和讀取價(jià)格分別是30美分（約合人民幣兩塊一）和3美分。

3.5 Sonnet則是寫入3.75美元，讀取0.3美元，最大號(hào)的Opus是18.75美元和1.5美元。

可以看出，初始寫入的價(jià)格相對(duì)于輸入要高一些，但讀取的價(jià)格只有重復(fù)輸入的十分之一。

換言之，緩存被反復(fù)讀取的次數(shù)越多，相比于重新輸入節(jié)約的成本也就越多。

舉個(gè)例子，假設(shè)要發(fā)送1萬次請(qǐng)求，重復(fù)部分包含1萬Tokens，如果不用緩存，總輸入是1億Tokens，用Sonnet需要300美元。

但如果開啟緩存，就只需要1÷100×3.75+1×10000÷100×0.3=30.03美元，節(jié)省了近90%。

還是假設(shè)重復(fù)部分包含1萬Tokens，那么從下圖可以看出，隨著調(diào)用次數(shù)的增加，成本優(yōu)勢(shì)將越來越明顯

對(duì)于開發(fā)者來說，這無疑是一項(xiàng)重大利好。

AI寫作工具HyperWriteAI創(chuàng)始人兼CEO Matt Shumer就表示，這項(xiàng)更新相當(dāng)重大。

這意味著人們可以用更低的成本把一整個(gè)代碼庫喂給模型，然后要求增加新功能；或者突破一次只能RAG 5個(gè)的限制，直接輸入大量文檔；又或者直接給出數(shù)百個(gè)示例，以得到“比微調(diào)更好的結(jié)果”。

目前該功能支持3 Haiku和3.5 Sonnet，Opus則將在稍晚一些更新。

頂級(jí)玩家紛紛跟進(jìn)

這項(xiàng)功能并非是Claude首創(chuàng)，今年5月，谷歌的Gemini就已經(jīng)支持了上下文緩存。

后來國內(nèi)月之暗面的Kimi和深度求索團(tuán)隊(duì)的DeepSeek也進(jìn)行了跟進(jìn)。

值得一提的是，DeepSeek團(tuán)隊(duì)把這項(xiàng)技術(shù)的存儲(chǔ)介質(zhì)換成了硬盤，還降低了存儲(chǔ)成本。

觸發(fā)方式也有所區(qū)別，比如DeepSeek是由系統(tǒng)自動(dòng)判斷哪些內(nèi)容需要緩存，Claude則是要在調(diào)用時(shí)手動(dòng)添加標(biāo)記。

雖然在細(xì)節(jié)上各家有各自的做法，但這種新模式，已經(jīng)受到了國內(nèi)外頂級(jí)玩家的青睞，未來可能會(huì)成為大模型廠商的新標(biāo)配。

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營