偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="lr5ez"></dfn>

<rt id="lr5ez"><fieldset id="lr5ez"></fieldset></rt>

<bdo id="lr5ez"></bdo>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM-Blender：大語言模型也可以進(jìn)行集成學(xué)習(xí)

作者：佚名 2023-07-24 15:20:05

人工智能機(jī)器學(xué)習(xí)

最近在看arxiv的時候發(fā)現(xiàn)了一個有意思的框架：LLM-Blender，它可以使用Ensemble 的方法來對大語言模型進(jìn)行集成。

最近在看arxiv的時候發(fā)現(xiàn)了一個有意思的框架：LLM-Blender，它可以使用Ensemble 的方法來對大語言模型進(jìn)行集成。

官方介紹如下：LLM-Blender是一個集成框架，可以通過利用多個開源大型語言模型(llm)的不同優(yōu)勢來獲得始終如一的卓越性能。

LLM集成

我們都知道集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，旨在提高預(yù)測模型的性能和魯棒性。它通過將多個不同的學(xué)習(xí)器（如決策樹、神經(jīng)網(wǎng)絡(luò)等）結(jié)合成一個整體，來取得比單個學(xué)習(xí)器更好的預(yù)測效果。比如最常見的Kaggle比賽中就廣泛的使用了這種方法。

那么大語言模型有必要進(jìn)行集成嗎

論文給出了以下觀點(diǎn)：

由于數(shù)據(jù)、架構(gòu)和超參數(shù)的變化，LLM表現(xiàn)出不同的優(yōu)勢和劣勢，使它們互補(bǔ)。并且目前不存在一個開源LLM在所有例子中都占主導(dǎo)地位?？梢约蒐LM的輸出(基于輸入、任務(wù)和領(lǐng)域)，以便在不同的示例中提供一致的卓越性能。結(jié)合他們獨(dú)特的貢獻(xiàn);可以減輕個別LLM的偏差、誤差和不確定性，從而使產(chǎn)出與人類偏好保持一致。

LLM-Blender

所以論文就給出了一個框架LLM-Blender

LLM-Blender有兩個模塊:PairRanker和GenFuser。PairRanker比較多個模型的輸出，給出排名最高的輸出。然后GenFuser將前幾個排名靠前的輸出融合在一起，生成最終輸出。

1、PairRanker是如何工作的

PairRanker模塊用于有效地識別候選模型輸出之間的細(xì)微差異，并根據(jù)它們的質(zhì)量對它們進(jìn)行排名。收集N個模型的輸出，并以總共N(N-1)/2種方式進(jìn)行配對(從總共N個項(xiàng)目中選擇2個項(xiàng)目的組合次數(shù))。然后根據(jù)以下條件對結(jié)果進(jìn)行評估:給定輸入提示，哪個候選人的輸出更好。

在推理過程中，計(jì)算一個包含表示兩兩比較結(jié)果的對數(shù)的矩陣。給定該矩陣確定并選擇排名前k的輸出用于GenFuser模塊。

2、GenFuser是如何工作的

GenFuser模塊使用PairRanker模塊排名靠前的輸出，為最終用戶生成潛在的改進(jìn)輸出。該模塊融合了排名前n位的結(jié)果中的前K位，并產(chǎn)生了改進(jìn)的輸出，利用他們的優(yōu)勢和減輕他們的弱點(diǎn)。

基準(zhǔn)測試

論文介紹了一個名為mixdirective的新數(shù)據(jù)集，用于對llm在指令跟隨任務(wù)中的集成模型進(jìn)行基準(zhǔn)測試。該數(shù)據(jù)集擁有來自Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION和ShareGPT的大規(guī)模指令示例集。有10萬例用于訓(xùn)練，5萬例用于驗(yàn)證，5萬例用于測試。

使用N = 11個流行的開源LLM進(jìn)行測試。候選的輸出使用ChatGPT對所有候選對進(jìn)行評估。對于每一對，ChatGPT被要求判斷那個是更好的。

可以看到各個LLM有不同的優(yōu)勢和劣勢。頂尖的LLM在測試中并不總是最優(yōu)的。PairRanker優(yōu)于其他LLM。LLM-Blender組合比其他任何單個模型更好。

限制

最主要的還是效率，因?yàn)閷airRanker中top-K輸出進(jìn)行排序的過程需要調(diào)用模型O(n2)次才能獲得最佳性能。解決這個問題的一種方法是使用多輪氣泡排序方法來減少所需的推斷數(shù)量。另一種提高時間效率的方法是并行執(zhí)行PairRanker的推理，因?yàn)樗鼈兪仟?dú)立的，也就是多個模型同時推理。

目前論文使用的是在ChatGPT幫助下的自動評估。雖然自動評估是一個很好的選擇，但人工評價可以提供更可靠、更全面的評價結(jié)果。

責(zé)任編輯：華軒來源： DeepHub IMBA

機(jī)器學(xué)習(xí)集成學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="80qmk"></nobr>

<button id="80qmk"><nobr id="80qmk"></nobr></button>