偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)新對(duì)話QA模型準(zhǔn)確度超GPT-4,卻遭吐槽:無(wú)權(quán)重代碼意義不大

人工智能
今天,英偉達(dá)的全新對(duì)話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數(shù)據(jù)的情況下,在 10 個(gè)對(duì)話 QA 數(shù)據(jù)集上的平均得分略勝于 GPT-4。

昨天,Meta、紐約大學(xué)的研究者用「自我獎(jiǎng)勵(lì)方法」,讓大模型自己生成自己的微調(diào)數(shù)據(jù),從而在 Llama 2 70B 的迭代微調(diào)后超越了 GPT-4。今天,英偉達(dá)的全新對(duì)話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數(shù)據(jù)的情況下,在 10 個(gè)對(duì)話 QA 數(shù)據(jù)集上的平均得分略勝于 GPT-4。

一年多來(lái),ChatGPT 及后續(xù)產(chǎn)品引發(fā)了生產(chǎn)和研究社區(qū)中構(gòu)建問(wèn)答(QA)模型的范式轉(zhuǎn)變。尤其是在實(shí)際應(yīng)用中,QA 模型在以下情況成為首選:

  • 用戶能夠以對(duì)話方式與 QA 模型進(jìn)行交互,并可以輕松提出后續(xù)問(wèn)題;
  • 通才模型能夠以零樣本方式生成答案,無(wú)需針對(duì)數(shù)據(jù)集進(jìn)行微調(diào),同時(shí)媲美微調(diào)專家模型的準(zhǔn)確度;
  • QA 模型能夠在開(kāi)放域或長(zhǎng)文檔設(shè)置中集成檢索到的證據(jù)塊,提供的上下文比 LLM 的上下文窗口長(zhǎng)得多。

不過(guò)對(duì)于研究界而言,構(gòu)建一個(gè)能夠媲美 GPT-4 等 SOTA 黑箱模型準(zhǔn)確度的對(duì)話 QA 模型仍是一個(gè)巨大挑戰(zhàn)。

近日,在英偉達(dá)的一篇論文中,研究者提出了一個(gè)具有 GPT-4 級(jí)別準(zhǔn)確度的白箱對(duì)話 QA 模型 ChatQA 70B。他們采用了兩階段指令調(diào)優(yōu)方法以及用于對(duì)話 QA 的 RAG 增強(qiáng)檢索器、嚴(yán)格的數(shù)據(jù)管理過(guò)程。

  • 論文標(biāo)題:ChatQA: Building GPT-4 Level Conversational QA Models
  • 論文地址:https://huggingface.co/papers/2401.10225
  • 論文標(biāo)題:ChatQA: Building GPT-4 Level Conversational QA Models

具體來(lái)講,本文主要做出了以下貢獻(xiàn):

  • 提出了兩階段指令調(diào)優(yōu)方法和數(shù)據(jù)集管理方法,它們大大增強(qiáng)了 LLM 在零樣本對(duì)話 QA 任務(wù)中集成用戶提供或檢索上下文時(shí)的能力。本文方法顯著優(yōu)于常規(guī)指令調(diào)優(yōu)或基于 RLHF 的方法(如 Llama-2-Chat)。
  • 對(duì)于對(duì)話 QA 中的 RAG,展現(xiàn)出了在人類標(biāo)注多輪 QA 數(shù)據(jù)集上微調(diào) SOTA 單輪查詢檢索器的效果與使用基于 LLM 的 SOTA 查詢重寫(xiě)模型(如 GPT-3.5-turbo)一樣好。
  • 基于 Llama2-7B、Llama2-13B、Llama2-70B 和內(nèi)部 8B 預(yù)訓(xùn)練 GPT 構(gòu)建了一系列 ChatQA 模型,并在 10 個(gè)對(duì)話 QA 數(shù)據(jù)集上進(jìn)行了全面研究,包括 5 個(gè)需要檢索的長(zhǎng)文檔數(shù)據(jù)集和 3 個(gè)帶有表格的數(shù)據(jù)集。從平均得分結(jié)果來(lái)看,ChatQA-70B 可以在不使用任何來(lái)自 ChatGPT 模型的合成數(shù)據(jù)情況下優(yōu)于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。
  • 探究了「無(wú)法回答」的場(chǎng)景,即所需要的答案不在提供或檢索的上下文中,因此 LLM 很容易產(chǎn)生幻覺(jué)。本文證明,在指令調(diào)優(yōu)中添加少量「無(wú)法回答」的樣本可以引導(dǎo)模型在必要時(shí)生成「無(wú)法回答」的輸出,從而大大減少幻覺(jué)。ChatQA-70B 在這方面優(yōu)于 GPT-3.5-turbo,但與 GPT-4 相比仍有輕微差距(約 3.5%)。

對(duì)于英偉達(dá)的全新對(duì)話 QA 模型,有人認(rèn)為有趣的一點(diǎn)在于,它不依賴任何來(lái)自 OpenAI GPT 模型的合成數(shù)據(jù)。而像馬斯克旗下 xAI 的聊天機(jī)器人 Grok 使用了大量 OpenAI 的模型數(shù)據(jù)。

推特 @fahirmdz

不過(guò),也有讀者對(duì)英偉達(dá)不提供模型權(quán)重和代碼的做法「很不感冒」。如果這些都不公開(kāi)的話,再厲害也對(duì) LLM 社區(qū)沒(méi)啥意義。

推特 @AiBeginners

方法細(xì)節(jié)

1.ChatQA 兩階段調(diào)優(yōu)

研究者提出了一種用于 ChatQA 的兩階段指令調(diào)優(yōu)方法,請(qǐng)參見(jiàn)圖 1。研究者的方法從預(yù)訓(xùn)練的 LLM 基礎(chǔ)模型開(kāi)始。在階段 1,研究者在指令遵循和對(duì)話聯(lián)合數(shù)據(jù)集上使用了監(jiān)督微調(diào)(SFT)。之后,本文的模型表現(xiàn)出作為對(duì)話智能體遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。 

因此,研究者引入了一個(gè)稱為上下文增強(qiáng)指令調(diào)優(yōu)的后續(xù)階段,它是專門(mén)為增強(qiáng)本文模型在對(duì)話 QA 中進(jìn)行上下文感知或檢索增強(qiáng)生成的能力而設(shè)計(jì)的。

2.多輪問(wèn)答檢索

在對(duì)話問(wèn)答任務(wù)中,當(dāng)文檔變得過(guò)于冗長(zhǎng)而無(wú)法直接輸入 LLM 時(shí),能夠處理對(duì)話式查詢的檢索器就變得至關(guān)重要。這種對(duì)話檢索器會(huì)對(duì)對(duì)話歷史和當(dāng)前查詢進(jìn)行編碼,然后從文檔中檢索相關(guān)上下文。之后,只有相關(guān)上下文才會(huì)被用作 LLM 的輸入。最先進(jìn)的檢索器都是針對(duì)單輪查詢進(jìn)行優(yōu)化的,因此對(duì)多輪對(duì)話查詢的泛化能力有限。

在圖 2 中,研究者描述了他們的檢索器微調(diào)方法,以緩解這一問(wèn)題。他們建議使用對(duì)話查詢和上下文對(duì)來(lái)進(jìn)一步微調(diào)單輪檢索器,以更好地應(yīng)對(duì)對(duì)話輸入。

另一種解決方案是對(duì)話查詢重寫(xiě)法,它使用查詢重寫(xiě)器根據(jù)對(duì)話歷史記錄重寫(xiě)當(dāng)前問(wèn)題。重寫(xiě)后的查詢直接作為單輪查詢檢索器的輸入,用于檢索相關(guān)上下文。除了嵌入和搜索成本外,查詢重寫(xiě)模型還引入了大量額外的計(jì)算開(kāi)銷來(lái)生成重寫(xiě)后的查詢。

在表 1 中,研究者比較了五個(gè)數(shù)據(jù)集在零樣本設(shè)置下的查詢重寫(xiě)和微調(diào)方法。

實(shí)驗(yàn)及結(jié)果

1.實(shí)驗(yàn)設(shè)置

研究者在不同規(guī)模的模型上進(jìn)行了實(shí)驗(yàn)。首先,為了顯示第二階段上下文增強(qiáng)指令調(diào)優(yōu)的有效性,研究者將 Llama2-SFT7B/13B/70B 與第一階段監(jiān)督微調(diào)(SFT)后的 Llama2-7B/13B/70B 基礎(chǔ)模型進(jìn)行了比較。其次,與 Llama2-Chat-7B/13B/70B 進(jìn)行比較,因?yàn)?Llama2-Chat 模型被證明具有強(qiáng)大的指令遵循和對(duì)話問(wèn)答能力。

除了 Llama2 模型外,研究者還對(duì)自家的 GPT-8B 基礎(chǔ)模型進(jìn)行了實(shí)驗(yàn),并與其第一階段的 SFT 基線(GPT-8BSFT)進(jìn)行了比較。最后,還與兩個(gè)非常強(qiáng)大的 OpenAI 模型進(jìn)行了比較:GPT-3.5-turbo (4k) 和 GPT-4 (8k)。

為了進(jìn)行公平比較,研究者使用相同的上下文作為模型和基線的輸入。他們對(duì)所有基線的指令都進(jìn)行了仔細(xì)調(diào)整,以確保它們?nèi)〉帽M可能好的結(jié)果。

研究者收集了五個(gè)包含長(zhǎng)文檔的對(duì)話式問(wèn)答數(shù)據(jù)集。他們將 Doc2Dial、QuAC 和 QReCC 文檔分割成大約 300 字的塊,并檢索前 5 個(gè)相關(guān)塊作為每個(gè)用戶問(wèn)題的上下文。對(duì)于 TopioCQA 和 INSCIT,研究者遵循它們?cè)嫉姆指罘绞?,得到了更小的文本塊。

為了增加文檔長(zhǎng)度的多樣性,研究者還收集了五個(gè)包含短文檔(少于 1500 字)的對(duì)話式問(wèn)答數(shù)據(jù)集。平均而言,每個(gè)單詞將被分解為 1.5K 個(gè) tokens。這些數(shù)據(jù)集包括 CoQA、DoQA、ConvFinQA、SQA 和 HybridDial。

考慮到 F1 分?jǐn)?shù)是評(píng)估問(wèn)答模型最常用的自動(dòng)指標(biāo),研究者對(duì) ConvFinQA 之外的所有數(shù)據(jù)集使用它。在 ConvFinQA 中,研究者使用精確匹配指標(biāo),因?yàn)?ConvFinQA 中的答案涉及從文檔中提取數(shù)字以及進(jìn)行算術(shù)計(jì)算。因此,只有當(dāng)答案與標(biāo)準(zhǔn)答案完全相同時(shí),它才有意義。當(dāng)模型生成算術(shù)公式時(shí),研究者將使用計(jì)算器計(jì)算其最終結(jié)果,并與標(biāo)準(zhǔn)答案進(jìn)行比較。此外,他們還進(jìn)行了人工評(píng)估,以評(píng)估他們的最佳模型和 GPT-4 生成答案的正確性。

2.實(shí)驗(yàn)結(jié)果

如表 2 所示,研究者比較了不同的模型變體和 OpenAI 模型在 10 個(gè)對(duì)話式問(wèn)答數(shù)據(jù)集上的表現(xiàn)。

他們移除了微調(diào)階段的第一階段 SFT,僅在基礎(chǔ) LLM 上應(yīng)用第二階段的上下文增強(qiáng)指令調(diào)優(yōu)。觀察數(shù)據(jù)可以發(fā)現(xiàn)平均得分下降了 1.9(從 54.08 降至 52.18)。除了 SQA 數(shù)據(jù)集外,移除第一階段會(huì)使模型在其他數(shù)據(jù)集上的表現(xiàn)一致地變差。

結(jié)果表明,即使在第二階段指令調(diào)優(yōu)中也融合了第一階段 SFT 的所有數(shù)據(jù)集,第一階段仍然扮演著重要角色。因此,研究者認(rèn)為先建立遵循指令的能力對(duì)第二階段的調(diào)整是有益的。

10 個(gè)數(shù)據(jù)集的人類評(píng)估結(jié)果如表 3 所示。首先,在大多數(shù)情況下(占比 69.09%),ChatQA-70B 模型和 GPT-4 表現(xiàn)相當(dāng)。而 GPT-4 在勝率上略高于本文模型,大約高出 3.3%。這進(jìn)一步證明了其模型在提供正確答案方面具有強(qiáng)大的能力。其次,在 ConvFinQA 任務(wù)中,本文模型比 GPT-4 有略微更好的勝率,這顯示了該模型在算術(shù)計(jì)算方面的強(qiáng)大能力。第三,GPT-4 在 SQA 任務(wù)上的勝率明顯更高,這表明在表格推理任務(wù)上,本文模型與 GPT-4 之間仍存在一定差距。

表 4 中,研究者進(jìn)一步比較了本文模型和 OpenAI 模型在不同數(shù)據(jù)集類型的回話問(wèn)答基準(zhǔn)中的表現(xiàn)。

在表 5 中,研究者發(fā)現(xiàn)在需要檢索的數(shù)據(jù)集上,使用 top-5 數(shù)據(jù)塊作為訓(xùn)練上下文會(huì)帶來(lái)一些改進(jìn)。但在非檢索數(shù)據(jù)集上的性能卻有所下降??傮w而言,這兩種模型的性能相當(dāng)。這是因?yàn)樵诘诙A段的調(diào)整中加入了 top-5 檢索數(shù)據(jù)塊,使其與需要檢索的推理階段保持一致,從而提高了 Avg-ret 分?jǐn)?shù)。

表 6 展示了關(guān)于檢索上下文 / 語(yǔ)塊數(shù)量、上下文排序和不同檢索器如何影響對(duì)話質(zhì)量保證結(jié)果的消融研究。

表 7 展示了本文模型與 OpenAI 模型在 QuAC 和 DoQA 數(shù)據(jù)集上進(jìn)行了比較。

表 8 顯示了 ChatQA-70B 和 GPT-4 輸出的四個(gè)示例。

第一個(gè)例子是一個(gè)簡(jiǎn)單的信息尋求問(wèn)題,ChatQA-70B 和 GPT-4 都給出了正確的答案。在第二個(gè)例子中,模型需要找到隱含信息(以藍(lán)色高亮顯示)來(lái)給出答案。GPT-4 在給出答案時(shí)傾向于保守,它回答說(shuō)上下文沒(méi)有提供關(guān)于年齡的確切信息,這也是正確的。

第三個(gè)和第四個(gè)例子都要求模型具有良好的表格理解和推理能力。在第三個(gè)例子中,ChatQA-70B 通過(guò)比較保護(hù)區(qū)的大小和 3100 公頃給出了正確的答案,而 GPT-4 則未能做到這一點(diǎn)。在第四個(gè)例子中,ChatQA-70B 正確列出了三個(gè)日期,但漏掉了一個(gè)日期,而 GPT-4 則正確回答了這個(gè)問(wèn)題。

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-01-22 07:10:00

AI視頻

2018-09-15 14:54:11

iPhone手機(jī)iPhone XR

2023-12-09 14:30:50

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2021-03-15 10:03:10

框架自動(dòng)化開(kāi)發(fā)

2021-05-26 16:00:51

微信表情移動(dòng)應(yīng)用

2023-06-19 08:19:50

2024-07-09 12:54:57

2024-09-02 09:25:00

AI研究

2023-12-26 08:17:23

微軟GPT-4

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-07-14 09:49:16

2023-10-14 13:09:53

谷歌模型

2025-04-16 09:35:03

2023-10-14 17:24:49

2023-05-08 07:53:12

GPT-4代碼

2023-05-29 09:55:11

GPT-4英偉達(dá)

2025-03-24 13:24:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)