偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<meter id="lyilz"></meter>}

<em id="lyilz"></em>

<tt id="lyilz"></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-5-13 07:10

瀏覽

0收藏

生成式AI模型成為當(dāng)前機(jī)器學(xué)習(xí)的熱點(diǎn)之一，GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對這三種模型進(jìn)行評估和比較，并給出實驗結(jié)果對比分析。

簡介

當(dāng)前，RAG(檢索增強(qiáng)生成)系統(tǒng)的新評估似乎每天都在發(fā)布，其中許多都集中在有關(guān)框架的檢索階段。然而，生成方面——模型如何合成和表達(dá)這些檢索到的信息，在實踐中可能具有同等甚至更大的意義。許多實際應(yīng)用中的案例證明，系統(tǒng)不僅僅要求從上下文中返回事實數(shù)據(jù)，還需要將這些事實合成一個更復(fù)雜的響應(yīng)。

為此，我們先后進(jìn)行了幾個實驗，對GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進(jìn)行了評估和比較。本文將詳細(xì)介紹我們的研究方法、結(jié)果和在此過程中遇到的這些模型的細(xì)微差別，并說明為什么這些內(nèi)容對使用生成式人工智能進(jìn)行構(gòu)建的人來說非常重要。

有興趣的讀者如果想重現(xiàn)上述實驗的結(jié)果，那么實驗中所需的一切都可以從GitHub存儲庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補(bǔ)充說明

盡管最初的發(fā)現(xiàn)表明Claude的性能優(yōu)于GPT-4，但隨后的測試表明，隨著戰(zhàn)略提示工程技術(shù)的出現(xiàn)，GPT-4在更廣泛的評估中表現(xiàn)出了卓越的性能?？傊?，RAG系統(tǒng)中固有的模型行為和提示工程當(dāng)中還存在很多的問題。
只需在提示模板中簡單地添加一句“請解釋自己，然后回答問題”，即可顯著提高(超過兩倍)GPT-4的性能。很明顯，當(dāng)LLM說出答案時，這似乎有助于進(jìn)一步展開有關(guān)想法。通過解釋，模型有可能在嵌入/注意力空間中重新執(zhí)行正確的答案。

RAG階段與生成的重要性

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖1：作者創(chuàng)建的圖表

雖然在一個檢索增強(qiáng)生成系統(tǒng)中檢索部分負(fù)責(zé)識別和檢索最相關(guān)的信息，但正是生成階段獲取這些原始數(shù)據(jù)，并將其轉(zhuǎn)換為連貫、有意義和符合上下文的響應(yīng)。生成步驟的任務(wù)是合成檢索到的信息，填補(bǔ)空白信息，并以易于理解和與用戶查詢相關(guān)的方式呈現(xiàn)。

在許多現(xiàn)實世界的應(yīng)用中，RAG系統(tǒng)的價值不僅在于它們定位特定事實或信息的能力，還在于它們在更廣泛的框架內(nèi)集成和情境化信息的能力。生成階段使RAG系統(tǒng)能夠超越簡單的事實檢索，并提供真正智能和自適應(yīng)的響應(yīng)。

測試#1：日期映射

我們運(yùn)行的初始測試包括從兩個隨機(jī)檢索的數(shù)字中生成一個日期字符串：一個表示月份，另一個表示日期。模型的任務(wù)是：

檢索隨機(jī)數(shù)#1
隔離最后一位并遞增1
根據(jù)結(jié)果為我們的日期字符串生成一個月
檢索隨機(jī)數(shù)#2
從隨機(jī)數(shù)2生成日期字符串的日期

例如，隨機(jī)數(shù)4827143和17表示4月17日。

這些數(shù)字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務(wù)時經(jīng)歷了相當(dāng)困難的時期。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖2：初始測試結(jié)果

雖然這兩個模型都表現(xiàn)不佳，但在我們的初步測試中，Claude 2.1的表現(xiàn)明顯優(yōu)于GPT-4，成功率幾乎翻了四倍。正是在這里，Claude模型的冗長本性——提供詳細(xì)、解釋性的回答——似乎給了它一個明顯的優(yōu)勢，與GPT-4最初簡潔的回答相比，結(jié)果更準(zhǔn)確。

在這些意想不到的實驗結(jié)果的推動下，我們在實驗中引入了一個新的變量。我們指示GPT-4“解釋自己，然后回答問題”，這一提示鼓勵了類似于Claude模型自然輸出的更詳細(xì)的響應(yīng)。因此，這一微小調(diào)整的影響還是深遠(yuǎn)的。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖3：有針對性提示結(jié)果的初始測試

GPT-4模型的性能顯著提高，在隨后的測試中取得了完美的結(jié)果。Claude模型的成績也有所改善。

這個實驗不僅突出了語言模型處理生成任務(wù)的方式的差異，還展示了提示工程對其性能的潛在影響。Claude的優(yōu)勢似乎是冗長，事實證明這是GPT-4的一種可復(fù)制策略，這表明模型處理和呈現(xiàn)推理的方式會顯著影響其在生成任務(wù)中的準(zhǔn)確性?？偟膩碚f，在我們的所有實驗中，包括看似微小的“解釋自己”這句話，都在提高模型的性能方面發(fā)揮了作用。

進(jìn)一步的測試和結(jié)果

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖4：用于評估生成的四個進(jìn)一步測試

我們又進(jìn)行了四次測試，以評估主流模型將檢索到的信息合成并轉(zhuǎn)換為各種格式的能力：

字符串連接：將文本片段組合成連貫的字符串，測試模型的基本文本操作技能。
貨幣格式：將數(shù)字格式化為貨幣，四舍五入，并計算百分比變化，以評估模型的精度和處理數(shù)字?jǐn)?shù)據(jù)的能力。
日期映射：將數(shù)字表示轉(zhuǎn)換為月份名稱和日期，需要混合檢索和上下文理解。
模運(yùn)算：執(zhí)行復(fù)數(shù)運(yùn)算以測試模型的數(shù)學(xué)生成能力。

不出所料，每個模型在字符串連接方面都表現(xiàn)出了強(qiáng)大的性能，這也重申了以前的理解，即文本操作是語言模型的基本優(yōu)勢。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖5：貨幣格式化測試結(jié)果

至于貨幣格式化測試，Claude 3和GPT-4的表現(xiàn)幾乎完美無瑕。Claude 2.1的表現(xiàn)總體上較差。準(zhǔn)確度在標(biāo)記長度上變化不大，但當(dāng)指針更接近上下文窗口的開頭時，準(zhǔn)確度通常會更低。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus-AI.x社區(qū)

圖6：正式的來自Haystack網(wǎng)站的測試結(jié)果

盡管在一代測試中取得了出色的結(jié)果，但Claude 3的準(zhǔn)確性在一個僅用于檢索的實驗中有所下降。從理論上講，簡單地檢索數(shù)字也應(yīng)該比操縱數(shù)字更容易——這使得性能的下降令人驚訝，也是我們計劃進(jìn)一步測試的領(lǐng)域。如果有什么不同的話，這種違反直覺的下降只會進(jìn)一步證實這樣一種觀點(diǎn)，即在使用RAG開發(fā)時，檢索和生成都應(yīng)該進(jìn)行測試。

結(jié)論

通過測試各種生成任務(wù)，我們觀察到，雖然Claude和GPT-4這兩個模型都擅長字符串操作等瑣碎任務(wù)，但在更復(fù)雜的場景中，它們的優(yōu)勢和劣勢變得顯而易見(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數(shù)學(xué)方面仍然不太好!另一個關(guān)鍵結(jié)果是，“自我解釋”提示的引入顯著提高了GPT-4的性能，強(qiáng)調(diào)了如何提示模型以及如何闡明其推理對實現(xiàn)準(zhǔn)確結(jié)果的重要性。

這些發(fā)現(xiàn)對LLM的評估具有更廣泛的意義。當(dāng)比較像詳細(xì)的Claude和最初不那么詳細(xì)的GPT-4這樣的模型時，很明顯，RAG評估(https://arize.com/blog-course/rag-evaluation/)標(biāo)準(zhǔn)必須超越以前僅重視正確性這一點(diǎn)。模型響應(yīng)的冗長引入了一個變量，該變量可以顯著影響他們的感知性能。這種細(xì)微差別可能表明，未來的模型評估應(yīng)將平均答復(fù)長度視為一個值得注意的因素，從而更好地了解模型的能力，并確保更公平的比較。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：Tips for Getting the Generation Part Right in Retrieval Augmented Generation，作者：Aparna Dhinakaran

鏈接：

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

長文本之罪：Claude團(tuán)隊新越獄技術(shù)，Llama 2到GPT-4無一幸免

輕薄滴假象 ? 3579瀏覽 ? 0回復(fù)
超越GPT-4！最強(qiáng)大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 6547瀏覽 ? 0回復(fù)
Reka Core登場：挑戰(zhàn)GPT-4、Claude 3

duhorse ? 3061瀏覽 ? 0回復(fù)
使用LLMLingua-2壓縮GPT-4和Claude提示

51CTO內(nèi)容精選 ? 2790瀏覽 ? 0回復(fù)
超越GPT-4！騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 6411瀏覽 ? 0回復(fù)
陳丹琦團(tuán)隊新作：微調(diào)8B模型超越Claude3 Opus，背后是RLHF新平替

Crystalcxt ? 3175瀏覽 ? 0回復(fù)
Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 3414瀏覽 ? 0回復(fù)
使用 Claude 3.5 和 Python 構(gòu)建 ReAct AI Agent

丟翅膀的魚 ? 2850瀏覽 ? 0回復(fù)
使用Cursor和Claude AI打造你的第一個App

小虎哦哦 ? 5289瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 4946瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 2206瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2959瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級模型

Syrupup ? 8359瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 1.8w瀏覽 ? 0回復(fù)
Anthropic秘密「混合模型」 Claude 4首曝細(xì)節(jié)，硬剛GPT-5！深度推理模型來了

duhorse ? 2825瀏覽 ? 0回復(fù)
三大AI超能力：分類式AI、預(yù)測式AI和生成式AI

51CTO內(nèi)容精選 ? 3129瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 1783瀏覽 ? 0回復(fù)
Claude 4 大揭秘：不僅更強(qiáng)，還更“負(fù)責(zé)”的 AI 新物種

ermulong ? 1183瀏覽 ? 0回復(fù)
Web 開發(fā) AI 就選它？V0復(fù)合架構(gòu)無錯誤率 93.87% 遠(yuǎn)超 Claude 4 Opus 單體！

老蛀蟲 ? 840瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文詳解Character AI：實用指南+ ChatGPT、Gemini對比分析 18h前發(fā)布
借助氛圍編程用Python編寫一個速讀應(yīng)用程序，只需15分鐘 1天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：音樂人值得嘗試的十大文本轉(zhuǎn)音樂AI平臺

下一篇：使用Quarkus和LangChain4j，LLM在Java中可以實現(xiàn)哪些功能？

社區(qū)精華內(nèi)容

目錄