偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

六大維度,LLM「問(wèn)題生成」首次正面PK人類!伯克利等發(fā)布最新研究

人工智能 新聞
研究人員首次探討了大型語(yǔ)言模型(LLMs)在問(wèn)題生成任務(wù)中的表現(xiàn),與人類生成的問(wèn)題進(jìn)行了多維度對(duì)比,結(jié)果發(fā)現(xiàn)LLMs傾向于生成需要較長(zhǎng)描述性答案的問(wèn)題,且在問(wèn)題生成中對(duì)上下文的關(guān)注更均衡。

長(zhǎng)期以來(lái),問(wèn)題生成(Question Generation)任務(wù)都是根據(jù)「給定事實(shí)」來(lái)編寫各種相關(guān)問(wèn)題,已經(jīng)發(fā)展出了很多自動(dòng)化的方法。

大型語(yǔ)言模型(LLM)的興起,極大提升了各種自然語(yǔ)言處理(NLP)任務(wù)的性能,其中也包括問(wèn)題生成,雖然應(yīng)用廣泛,但還沒(méi)有研究討論過(guò)「用LLMs生成問(wèn)題的特點(diǎn)」。

圖片

沒(méi)有額外提示約束時(shí),LLMs是更傾向于生成較長(zhǎng)還是較短的問(wèn)題??jī)A向于問(wèn)什么類型的問(wèn)題?LLMs生成的問(wèn)題與人類編寫的問(wèn)題又有哪些不同?

最近,加州大學(xué)伯克利分校、阿卜杜勒阿齊茲國(guó)王科技城、華盛頓大學(xué)的研究人員提出了一種基于LLMs的自動(dòng)化評(píng)估方法,重點(diǎn)關(guān)注問(wèn)題的長(zhǎng)度、類型、上下文覆蓋范圍和可回答性等維度,結(jié)果發(fā)現(xiàn)LLMs傾向于生成需要描述性、較長(zhǎng)答案的問(wèn)題;

常見的問(wèn)答任務(wù)中,人類更傾向于選擇文章的開始結(jié)束位置生成問(wèn)題,LLMs對(duì)整個(gè)上下文的關(guān)注更加均衡。

圖片

論文鏈接:https://arxiv.org/pdf/2501.03491

雖然已經(jīng)有研究通過(guò)實(shí)證來(lái)評(píng)估人類一致性,但還沒(méi)有將LLMs生成問(wèn)題的質(zhì)量標(biāo)準(zhǔn)與人類生成問(wèn)題進(jìn)行對(duì)比。

這篇文章首次揭示了LLMs在問(wèn)題生成中的偏好,通過(guò)引入自動(dòng)評(píng)估流程,擴(kuò)展了現(xiàn)有的統(tǒng)計(jì)問(wèn)題質(zhì)量標(biāo)準(zhǔn),研究發(fā)現(xiàn)為評(píng)估下游應(yīng)用(如RAG系統(tǒng)和幻覺(jué)檢測(cè))的提示工程優(yōu)化提供了經(jīng)驗(yàn),可以防止在不當(dāng)情境下的濫用,更深入地了解LLMs在問(wèn)題生成中的行為傾向。

生成流程與指標(biāo)

從上下文中生成問(wèn)題

問(wèn)題的輸入包括:一個(gè)段落文本作為上下文C,一個(gè)問(wèn)題生成指令提示P;大模型M的輸出為N個(gè)問(wèn)題Q,其中每個(gè)問(wèn)題都可以用上下文中的事實(shí)來(lái)回答。

不能直接使用LLM進(jìn)行問(wèn)題生成:?jiǎn)栴}假定讀者對(duì)上下文的某個(gè)特定范圍很熟悉;生成的問(wèn)題可能沒(méi)有標(biāo)準(zhǔn)答案;有些問(wèn)題直接引用了上下文,如果沒(méi)有上下文就無(wú)法回答。

所以研究人員設(shè)計(jì)了一段提示詞:

You are to generate [N] self-contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like "it," "the game," or "the person." Do not include phrases that reference the source or context, such as "mentioned in the article" or "according to the text." Provide the questions in an ordered list.

你需要根據(jù)以下內(nèi)容中提到的事實(shí)生成[N]個(gè)自成一體的簡(jiǎn)短答案問(wèn)題。避免直接引用內(nèi)容的問(wèn)題。每個(gè)問(wèn)題都應(yīng)包含所有相關(guān)的上下文,并直接提及任何被引用的項(xiàng)目,避免使用「它」「這款游戲」或「這個(gè)人」等代詞。不要包含引用來(lái)源或上下文的短語(yǔ),如「文章中提到的」或「根據(jù)文本」。將問(wèn)題以有序列表的形式提供。

為了構(gòu)建上下文C,研究人員將WikiText數(shù)據(jù)集分割成86萬(wàn)個(gè)段落,同時(shí)保留章節(jié)結(jié)構(gòu)作為元數(shù)據(jù);在過(guò)濾掉過(guò)短的段落并清理特殊字符后,通過(guò)整合段落文本并附加相關(guān)章節(jié)標(biāo)題來(lái)組成上下文。

圖片

該流程類似于HotpotQA的先上下文后問(wèn)題的方法,眾包人員根據(jù)維基百科的多個(gè)證據(jù)段落生成問(wèn)題;作為對(duì)比,TriviaQA是一個(gè)由知識(shí)競(jìng)賽愛(ài)好者編纂的問(wèn)答數(shù)據(jù)集,標(biāo)注人員根據(jù)問(wèn)題在文章中尋找證據(jù)。

與答案無(wú)關(guān)的評(píng)估指標(biāo)

問(wèn)題類型

對(duì)于人類來(lái)說(shuō),選擇提出哪種問(wèn)題是主觀的,研究人員探索了在沒(méi)有額外約束的情況下LLMs能夠生成的問(wèn)題類型,分析了十個(gè)手動(dòng)定義類別的問(wèn)題類型(通過(guò)觀察HotpotQA、TriviaQA和論文數(shù)據(jù)集中的混合問(wèn)題得到),并將其與人類的偏好進(jìn)行比較。

問(wèn)題長(zhǎng)度

長(zhǎng)度是生成問(wèn)題的一個(gè)直觀統(tǒng)計(jì)指標(biāo),研究人員主要統(tǒng)計(jì)單詞數(shù)量;除了直接比較人類生成和LLMs生成數(shù)據(jù)集中的問(wèn)題長(zhǎng)度外,還考察了問(wèn)題長(zhǎng)度與問(wèn)題類型之間的關(guān)系。

下文覆蓋范圍

一個(gè)問(wèn)題可能需要跨多個(gè)句子進(jìn)行推理,研究人員擴(kuò)展了基于提示的句子級(jí)測(cè)量方法,還研究了單詞級(jí)上下文覆蓋范圍;分析了在生成過(guò)程中LLMs傾向于關(guān)注上下文的哪些具體部分。

結(jié)果可以看到,問(wèn)題生成并不遵循之前研究中討論問(wèn)答中的類似位置偏差。

與答案有關(guān)的評(píng)估指標(biāo)

圖片

可回答性(Answerability)

問(wèn)題的關(guān)鍵質(zhì)量標(biāo)準(zhǔn)是,在給定特定知識(shí)的情況下,是否能夠被精確回答,即在提供上下文時(shí),生成的問(wèn)題應(yīng)該是可回答的。

研究人員提示LLMs使用給定的上下文作為輸入來(lái)生成答案;由于答案的正確性也是基于相同的上下文來(lái)評(píng)估的,因此在大多數(shù)情況下,生成的問(wèn)題都是可回答的。

非常見性(Uncommonness)

LLMs的預(yù)訓(xùn)練數(shù)據(jù)基于互聯(lián)網(wǎng)上廣泛可用的常識(shí),即使沒(méi)有明確提供上下文,LLMs仍然可能回答問(wèn)題。

與可回答性評(píng)估相比,關(guān)鍵區(qū)別在于在答案生成過(guò)程中省略了上下文,而其他因素保持不變;結(jié)果也可以看到,去除上下文會(huì)顯著降低答案質(zhì)量,也表明,生成的問(wèn)題對(duì)于評(píng)估RAG系統(tǒng)或進(jìn)行自動(dòng)幻覺(jué)測(cè)試很有價(jià)值。

所需答案長(zhǎng)度(Required answer length)

除了問(wèn)題長(zhǎng)度外,所需答案的長(zhǎng)度也是衡量問(wèn)題信息量的有效的指標(biāo)。

由于生成模型的特性,生成的答案往往更長(zhǎng),包含更多細(xì)節(jié);為了從帶有上下文生成的答案中篩選出不必要的信息,研究人員使用了兩種策略來(lái)測(cè)量答案的基本長(zhǎng)度:1)要求模型生成的文字答案最短;2)設(shè)置生成字?jǐn)?shù)限制。

結(jié)果顯示,該方法可以用更少的字?jǐn)?shù)實(shí)現(xiàn)相同的質(zhì)量評(píng)級(jí),并顯著降低答案長(zhǎng)度,第二種策略通常來(lái)說(shuō)更好。

實(shí)驗(yàn)結(jié)果

研究人員使用兩個(gè)具有代表性的大型語(yǔ)言模型(LLMs)進(jìn)行評(píng)估:閉源的GPT-4o和開源的LLaMA-3.1-70b-Instruct,每個(gè)模型都使用相同的256個(gè)采樣的維基百科上下文(N=4)生成1024個(gè)問(wèn)題;大約使用了5萬(wàn)次聊天調(diào)用。

在答案評(píng)分方面,人工標(biāo)注與GPT-4o評(píng)估之間的平均皮爾遜相關(guān)系數(shù)為0.77,表明存在很強(qiáng)的正線性相關(guān)性。

LLMs會(huì)提什么類型的問(wèn)題?

根據(jù)預(yù)定義的問(wèn)題類型,研究人員將其分為三組:LLaMA和GPT模型都強(qiáng)烈傾向于詢問(wèn)具體的事實(shí)和數(shù)字,可能與訓(xùn)練數(shù)據(jù)的分布有關(guān);不太容易提出的問(wèn)題是根據(jù)上下文中的多個(gè)事實(shí)進(jìn)行推理,與HotpotQA更相似;大模型也更傾向于詢問(wèn)描述類、需要詳細(xì)答案的問(wèn)題,這種偏好也導(dǎo)致了答案更長(zhǎng)。

圖片

生成的問(wèn)題有多長(zhǎng)?

盡管整體的問(wèn)題長(zhǎng)度大致相似,約為20個(gè)單詞,但不同的LLMs傾向于表現(xiàn)出對(duì)長(zhǎng)度的不同偏好;人類生成的問(wèn)題長(zhǎng)度變化更大。

圖片

使用了多少上下文以及具體是哪部分?

人類生成的問(wèn)題傾向于覆蓋更多的上下文,無(wú)論是句子級(jí)還是單詞級(jí)測(cè)量結(jié)果都是一致的。

圖片

人類生成的問(wèn)題傾向于集中在上下文的開頭,但LLMs生成的問(wèn)題呈現(xiàn)出更均衡的分布,表明基于LLMs的問(wèn)題生成與問(wèn)答相比顯示出幾乎相反的位置關(guān)注焦點(diǎn)。

圖片

生成的問(wèn)題是否可以在有/無(wú)上下文的情況下回答?

通過(guò)結(jié)合答案生成和評(píng)分,可以觀察到,在有上下文的情況下,LLMs通常能生成令人滿意的答案,符合預(yù)期。

圖片

當(dāng)不提供上下文時(shí),性能會(huì)下降,大約四分之一的生成問(wèn)題無(wú)法得到合適的回答,GPT-4o生成的問(wèn)題與人類構(gòu)建的HotpotQA數(shù)據(jù)集相比,顯示出更高比例的非常見問(wèn)題。

回答問(wèn)題需要多少信息?

LLMs生成的答案通常比人類標(biāo)注的正確答案要長(zhǎng)得多,可能是因?yàn)樯赡P偷奶匦浴?/span>

圖片

為了更準(zhǔn)確地衡量所需信息量,將LLMs生成的答案壓縮,在保持評(píng)分的情況下生成最短版本。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-18 07:20:00

2025-04-30 09:09:00

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2023-04-03 10:28:53

人工智能機(jī)器人

2023-05-26 17:20:29

模型工具

2023-12-16 09:49:18

2025-07-03 09:49:43

2023-05-04 14:55:02

模型AI

2025-06-20 08:54:00

模型AILLM

2024-11-26 13:40:00

2025-01-22 15:21:00

2023-11-14 07:47:42

IGN擴(kuò)散模型

2024-09-23 14:46:27

2025-10-11 15:55:08

AI模型數(shù)據(jù)

2023-05-19 13:34:02

2025-06-25 16:09:40

機(jī)器人AI訓(xùn)練

2023-04-07 09:28:31

模型訓(xùn)練

2024-03-26 15:43:00

訓(xùn)練數(shù)據(jù)機(jī)器人

2023-04-04 13:17:00

GPUCMU開源

2022-07-15 14:57:43

AI語(yǔ)言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)