偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一句話解鎖100k+上下文大模型真實(shí)力，27分漲到98，GPT-4、Claude2.1適用

作者：量子位 2023-12-11 13:20:00

人工智能新聞

一項(xiàng)極限測(cè)試卻發(fā)現(xiàn)，大部分人用法都不對(duì)，沒(méi)發(fā)揮出AI應(yīng)有的實(shí)力。 AI真的能從幾十萬(wàn)字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎？

各家大模型紛紛卷起上下文窗口，Llama-1時(shí)標(biāo)配還是2k，現(xiàn)在不超過(guò)100k的已經(jīng)不好意思出門了。

然鵝一項(xiàng)極限測(cè)試卻發(fā)現(xiàn)，大部分人用法都不對(duì)，沒(méi)發(fā)揮出AI應(yīng)有的實(shí)力。

AI真的能從幾十萬(wàn)字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎？顏色越紅代表AI犯的錯(cuò)越多。

默認(rèn)情況下，GPT-4-128k和最新發(fā)布的Claude2.1-200k成績(jī)都不太理想。

但Claude團(tuán)隊(duì)了解情況后，給出超簡(jiǎn)單解決辦法，增加一句話，直接把成績(jī)從27%提升到98%。

只不過(guò)這句話不是加在用戶提問(wèn)上的，而是讓AI在回復(fù)的開(kāi)頭先說(shuō)：

“Here is the most relevant sentence in the context:”

（這就是上下文中最相關(guān)的句子：）

讓大模型大海撈針

為了做這項(xiàng)測(cè)試，作者Greg Kamradt自掏腰包花費(fèi)了至少150美元。

好在測(cè)試Claude2.1時(shí)，Anthropic伸出援手給他提供了免費(fèi)額度，不然還得多花1016美元。

其實(shí)測(cè)試方法也不復(fù)雜，都是選用YC創(chuàng)始人Paul Graham的218篇博客文章當(dāng)做測(cè)試數(shù)據(jù)。

在文檔中的不同位置添加特定語(yǔ)句：在舊金山最好的事情，就是在陽(yáng)光明媚的日子坐在多洛雷斯公園吃一個(gè)三明治。

請(qǐng)GPT-4和Claude2.1僅僅使用所提供的上下文來(lái)回答問(wèn)題，在不同上下文長(zhǎng)度和添加在不同位置的文檔中反復(fù)測(cè)試。

最后使用Langchain Evals庫(kù)來(lái)評(píng)估結(jié)果。

作者把這套測(cè)試命名為“干草堆里找針/大海撈針”，并把代碼開(kāi)源在GitHub上，已獲得200+星，并透露已經(jīng)有公司贊助了對(duì)下一個(gè)大模型的測(cè)試。

AI公司自己找到解決辦法

幾周后，Claude背后公司Anthropic仔細(xì)分析后卻發(fā)現(xiàn)，AI只是不愿意回答基于文檔中單個(gè)句子的問(wèn)題，特別是這個(gè)句子是后來(lái)插入的，和整篇文章關(guān)系不大的時(shí)候。

也就是說(shuō)，AI判斷這句話和文章主題無(wú)關(guān)，就偷懶不去一句一句找了。

這時(shí)就需要用點(diǎn)手段晃過(guò)AI，要求Claude在回答開(kāi)頭添加那句“Here is the most relevant sentence in the context:”就能解決。

使用這個(gè)辦法，在尋找不是后來(lái)人為添加、本來(lái)就在原文章中的句子時(shí)，也能提高Claude的表現(xiàn)。

Anthropic公司表示將來(lái)會(huì)不斷的繼續(xù)訓(xùn)練Claude，讓它能更適應(yīng)此類任務(wù)。

在API調(diào)用時(shí)要求AI以指定開(kāi)頭回答，還有別的妙用。

創(chuàng)業(yè)者M(jìn)att Shumer看過(guò)這個(gè)方案后補(bǔ)充了幾個(gè)小技巧：

如果想讓AI輸出純JSON格式，提示詞的最后以“{”結(jié)尾。同理，如果想讓AI列出羅馬數(shù)字，提示詞以“I:”結(jié)尾就行。

不過(guò)事情還沒(méi)完……

國(guó)內(nèi)大模型公司也注意到了這項(xiàng)測(cè)試，開(kāi)始嘗試自家大模型能不能通過(guò)。

同樣擁有超長(zhǎng)上下文的月之暗面Kimi大模型團(tuán)隊(duì)也測(cè)出了問(wèn)題，但給出了不同的解決方案，也取得了很好的成績(jī)。

這樣一來(lái)，修改用戶提問(wèn)Prompt，又比要求AI在自己的回答添加一句更容易做到，特別是在不是調(diào)用API，而是直接使用聊天機(jī)器人產(chǎn)品的情況下。

月之暗面還用自己的新方法幫GPT-4和Claude2.1測(cè)試了一下，結(jié)果GPT-4改善明顯，Claude2.1只是稍微改善。

看來(lái)這個(gè)實(shí)驗(yàn)本身有一定局限性，Claude也是有自己的特殊性，可能與他們自己的對(duì)齊方式Constituional AI有關(guān)，需要用Anthropic自己提供的辦法更好。

后來(lái)，月之暗面的工程師還搞了更多輪實(shí)驗(yàn)，其中一個(gè)居然是……

壞了，我成測(cè)試數(shù)據(jù)了。

責(zé)任編輯：張燕妮來(lái)源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<acronym id="fiuy6"><var id="fiuy6"><th id="fiuy6"></th></var></acronym>