偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="em1hb"><td id="em1hb"><style id="em1hb"></style></td></button>

<thead id="em1hb"><rt id="em1hb"></rt></thead>

<thead id="em1hb"><rt id="em1hb"></rt></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

UC伯克利：給大模型測(cè)MBTI，Llama更敢說(shuō)但GPT-4像理工男

作者：新智元 2024-11-26 13:40:00

人工智能新聞

如果給LLM做MBTI，會(huì)得到什么結(jié)果？UC伯克利的最新研究就發(fā)現(xiàn)，不同模型真的有自己獨(dú)特的性格

如果你經(jīng)常在不同大模型之間來(lái)回切換，或許會(huì)發(fā)現(xiàn)不同模型的回復(fù)語(yǔ)氣有細(xì)微差異，如同有不同的性格。

那么，LLM究竟有沒(méi)有「性格」這種維度的特征？最近加州大學(xué)伯克利分校發(fā)表的新研究VibeCheck就證實(shí)了這種推測(cè)。

論文地址：https://arxiv.org/abs/2410.12851

評(píng)價(jià)LLM，不止于準(zhǔn)確度

如何更全面地評(píng)價(jià)大模型在撰寫故事、解釋概念或編輯文章上的表現(xiàn)？當(dāng)前的基準(zhǔn)測(cè)試大多只關(guān)心正確性，然而當(dāng)我們?cè)u(píng)論一個(gè)人類寫作者的時(shí)候，關(guān)注的維度就會(huì)擴(kuò)展到創(chuàng)造力、寫作風(fēng)格等眾多維度。

對(duì)于那些經(jīng)常使用不同模型的用戶，他們?cè)缫咽煜げ煌Ｐ突貜?fù)時(shí)表達(dá)方式上的差異，比如下面這張圖中，ChatGLM的文字顯得非常全面且嚴(yán)謹(jǐn)，透著濃濃的學(xué)術(shù)風(fēng)。

但對(duì)于同一個(gè)問(wèn)題，kimi的回復(fù)會(huì)包含更多具體的例子，但解釋的語(yǔ)言更為簡(jiǎn)潔。

了解這些差異，對(duì)于那些使用基座大模型進(jìn)行下游應(yīng)用的開(kāi)發(fā)者，會(huì)有所幫助。

例如，若我們發(fā)現(xiàn)Llama的回復(fù)更加友好，那么說(shuō)明Llama更適合進(jìn)行客服類任務(wù)，而回復(fù)更為正式的Claude則更適合編程類任務(wù)。

然而該如何系統(tǒng)性地了解這些差異？自然是「用魔法戰(zhàn)勝魔法」，也就是用大模型來(lái)評(píng)價(jià)不同大模型的表現(xiàn)，而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊，包括給出提示詞、不同大模型做出回復(fù)，以及定性評(píng)價(jià)三部分。

VibeCheck的核心模塊

給出了一組約200個(gè)的提示詞后，研究者收集了不同大模型及人類的回復(fù)，并招募了200名人類評(píng)審員，兩兩比較這些回復(fù)并對(duì)「友好性」進(jìn)行打分后計(jì)算平均分。

此外，人類評(píng)審員還會(huì)對(duì)大模型和人類回復(fù)的細(xì)微差異進(jìn)行描述，例如，他們發(fā)現(xiàn)：

大模型的回答通常很正式，而人類的回答則更口語(yǔ)化
大模型提供客觀答案，人類使用主觀表達(dá)
大模型拒絕回答其知識(shí)范圍之外的問(wèn)題

除了人類評(píng)審員，VibeCheck還調(diào)用了GPT-4o mini來(lái)評(píng)價(jià)不同大模型的回復(fù)，結(jié)果發(fā)現(xiàn)與人類的評(píng)估結(jié)果相符。也就是說(shuō)，GPT-4o mini也能發(fā)現(xiàn)上述人類評(píng)審員總結(jié)的細(xì)微差異。

下面是VibeCheck考察的10個(gè)評(píng)估維度，包括

自信：使用試探性或不確定的語(yǔ)言。
細(xì)節(jié)程度：提供簡(jiǎn)短或包含細(xì)節(jié)的回答。
正式性：隨意、對(duì)話式的非正式語(yǔ)言，或復(fù)雜，學(xué)術(shù)性的語(yǔ)言
情感基調(diào)：保持中立或超然，或者在回應(yīng)中表達(dá)熱情或同理心
創(chuàng)意：堅(jiān)持標(biāo)準(zhǔn)、可預(yù)測(cè)的答案，或提供具有新穎想法或想象性場(chǎng)景的回應(yīng)
明示性：使用模糊、隱晦的語(yǔ)言，或直接且明確地陳述事物
幽默詼諧：以直接嚴(yán)肅的方式回應(yīng)，或使用幽默、俏皮語(yǔ)言、文字游戲
參與程度：被動(dòng)呈現(xiàn)信息，或通過(guò)修辭疑問(wèn)、互動(dòng)性語(yǔ)句主動(dòng)吸引讀者
邏輯嚴(yán)謹(jǐn)：提供結(jié)論而缺乏充分論證，或構(gòu)建有充分支持的論點(diǎn)，推理清晰
簡(jiǎn)潔性：使用冗長(zhǎng)的語(yǔ)言和過(guò)多的細(xì)節(jié)，或使用最少的詞匯清晰表達(dá)觀點(diǎn)

有了VibeCheck，你可以給出自己定義的問(wèn)題以及不同大模型的回復(fù)，之后由代碼自動(dòng)生成多維度的評(píng)估，具體可參考論文附帶的GitHub倉(cāng)庫(kù)。

倉(cāng)庫(kù)地址：https://github.com/SutekhVRC/VibeCheck

主流LLM的細(xì)微差異

接下來(lái)看看三種主流大模型：Llama-3-70B、GPT-4和Claude3-Opus之間的對(duì)比。

在使用眾包及游戲排位賽的大模型評(píng)價(jià)平臺(tái)Chatbot Arena上，Llama3的表現(xiàn)被認(rèn)為優(yōu)于GPT-4及Claude3。但經(jīng)由VibeCheck的評(píng)估可發(fā)現(xiàn)，其中另有玄機(jī)。

結(jié)果發(fā)現(xiàn)，Llama3更愿意參與敏感或暴力話題，對(duì)倫理的重視較少，回復(fù)更加具有對(duì)話性（例如使用更多的你，我這樣人稱代詞）和幽默感，而這些正是Chatbot Arena的用戶所關(guān)注的特征.正因?yàn)槿藱C(jī)偏好對(duì)齊做得好，Llama3才能獲得這樣的好評(píng)。

接下來(lái)，VibeCheck還考察了文本摘要生成、數(shù)學(xué)及描述圖片這三個(gè)具體應(yīng)用中不同大模型的差異，并根據(jù)這些差異解釋了為何用戶對(duì)不同大模型存在偏好。

例如，Command X和TNLG是兩個(gè)用于文本摘要/總結(jié)生成的大模型，然而經(jīng)過(guò)VibeCheck的拆解，可發(fā)現(xiàn)：

1）Command X通常明確陳述引言和結(jié)論，TNLG則使用斷斷續(xù)續(xù)的句子

2）Command X能提供具體例子或軼事來(lái)說(shuō)明觀點(diǎn)

3）Command X能夠捕捉到一個(gè)故事的多重視角和情感方面，TNLG則更客觀

這些特征決定了，相比TNLG，人類評(píng)審員會(huì)更加偏好Command X。與此同時(shí)，VibeCheck能夠分別以71.29%的和61.42%的準(zhǔn)確率預(yù)測(cè)模型在前述10個(gè)維度的PK結(jié)果和人類評(píng)審員的評(píng)價(jià)。

而在數(shù)學(xué)問(wèn)題上，Llama-405B的回復(fù)相比GPT-4o更加詳細(xì)，對(duì)解題步驟的講解巨細(xì)靡遺，而GPT-4偏向于使用如Latex這樣的正式符號(hào)。

然而，在數(shù)學(xué)相關(guān)問(wèn)題上，用戶偏向于使用正式的語(yǔ)氣并頻繁使用符號(hào)，對(duì)大模型思維過(guò)程的過(guò)度解釋與人類偏好呈負(fù)相關(guān)。

VibeCheck能夠以97.09%的準(zhǔn)確率預(yù)測(cè)模型在上述10個(gè)維度上的對(duì)決結(jié)果，并以72.79%的準(zhǔn)確率預(yù)測(cè)用戶偏好。

在描述圖像的任務(wù)中，研究發(fā)現(xiàn)GPT-4V更多使用詩(shī)意的語(yǔ)言，并將標(biāo)題結(jié)構(gòu)為一個(gè)動(dòng)態(tài)故事，推斷圖像中主體的個(gè)性和情感，而Gemini則堅(jiān)持更直白的描述。

VibeCheck能夠?qū)崿F(xiàn)接近完美的99.13%模型匹配準(zhǔn)確率（相比人類給出的評(píng)價(jià)）和89.02%偏好預(yù)測(cè)準(zhǔn)確率

結(jié)論

隨著大模型的應(yīng)用范圍越來(lái)越廣，距離我們的日常生活越來(lái)越近，我們會(huì)不自覺(jué)地將大模型擬人化，而人是會(huì)具有個(gè)性的。

雖然VibeCheck更多關(guān)注文字相關(guān)的任務(wù)，但未來(lái)可以使用類似的框架，去評(píng)價(jià)不同的文生圖及文生視頻模型，考察這些模型的產(chǎn)出是否也存在微妙的「?jìng)€(gè)性」差異。

搞清楚這些差異，就相當(dāng)于開(kāi)發(fā)了一條全新的藍(lán)海賽道，讓當(dāng)下純粹卷模型準(zhǔn)確性的大模型廠商有了差異化競(jìng)爭(zhēng)的可能，從而讓各種性格的大模型得以百花齊放。

而基于大模型開(kāi)發(fā)具體應(yīng)用的開(kāi)發(fā)者，也可以關(guān)注不同大模型在語(yǔ)氣、氛圍上的細(xì)微差異，選擇合適自己應(yīng)用場(chǎng)景的大模型，或者通過(guò)微調(diào)，讓大模型在某項(xiàng)指標(biāo)上有所改進(jìn)。

例如可以根據(jù)VibeCheck的評(píng)價(jià)結(jié)果改進(jìn)得到更幽默的大模型，而不必招募人類評(píng)審員。

更關(guān)鍵的是，通過(guò)VibeCheck具體的拆解，我們可發(fā)現(xiàn)，用戶對(duì)不同任務(wù)的偏好存在差異。

例如在回答人文類的問(wèn)題時(shí)，更具有對(duì)話感、語(yǔ)氣更友好的大模型受歡迎；而在解答數(shù)學(xué)問(wèn)題時(shí)，回答簡(jiǎn)潔且語(yǔ)氣正式的大模型用戶評(píng)價(jià)更高。

這樣細(xì)致的拆解，能夠讓我們更好地進(jìn)行人機(jī)偏好對(duì)齊，從而讓大模型能更貼心地為人類服務(wù)。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="ont48"><i id="ont48"></i></blockquote>

<thead id="ont48"><rt id="ont48"></rt></thead><blockquote id="ont48"><p id="ont48"><li id="ont48"></li></p></blockquote>

<p id="ont48"><li id="ont48"></li></p>

<bdo id="ont48"><button id="ont48"><span id="ont48"></span></button></bdo>