偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="8e6po"></ruby>

<nav id="8e6po"><th id="8e6po"><em id="8e6po"></em></th></nav>

<s id="8e6po"><li id="8e6po"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

GPT-4o mini排名雪崩，大模型競技場規(guī)則更新，奧特曼刷分小技巧無效了

作者：量子位 2024-09-02 08:30:00

人工智能新聞

在新規(guī)則下，奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。

大模型競技場規(guī)則更新，GPT-4o mini排名立刻雪崩，跌出前10。

新榜單對AI回答的長度和風格等特征做了降權處理，確保分數(shù)反映模型真正解決問題的能力。

想用漂亮的格式、增加小標題數(shù)量等技巧討好用戶、刷榜，現(xiàn)在統(tǒng)統(tǒng)沒用了。

在新規(guī)則下，奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。

Claude系列、Llama-3.1-405b大模型分數(shù)則紛紛上漲。

只計算困難任務（Hard Prompt）的情況下，大模型在風格控制榜單中的優(yōu)勢更加明顯。

此前GPT-4o mini小模型一度登頂，與GPT-4o滿血版并列第一，與網(wǎng)友的體感明顯不符。

Lmsys大模型競技場這個一度被Karpathy推薦的評價標準，口碑也跌落到“只能反映用戶喜好而不是模型能力了”。

Lmsys組織痛定思痛，先是公開了GPT-4o mini參與的1000場battle數(shù)據(jù)，從而分析出模型拒絕回答率、生成內(nèi)容長度、和格式排版是影響投票結果的幾個因素。

而且奧特曼還在GPT-4o mini發(fā)布之前，暗示了正是按照人類偏好做優(yōu)化的。

現(xiàn)在，Lmsys進一步推出了控制這些因素的新算法，而且還只是規(guī)劃中的第一步。

如何控制風格的影響？

假設有模型A擅長生成代碼、事實和無偏見的答案等，但它的輸出非常簡潔。

模型B在實質內(nèi)容（例如正確性）上不是很好，但它輸出的內(nèi)容長而詳細、格式排版華麗。

那么哪個更好？

答案不是唯一的，Lmsys嘗試用數(shù)學方法找出一個模型的得分有多少是內(nèi)容或風格貢獻的。

此外，最近也已經(jīng)有研究表明，人類對排版漂亮和更詳細的AI回答可能存在偏好性。

通過在Bradley-Terry回歸中添加樣式特征，如響應長度、markdown小標題的數(shù)量、列表和加粗文本數(shù)量作為自變量。

這是統(tǒng)計學中的一種常用技術，最近被AlpacaEval LC等用于大模型評估。

在回歸中包含任何混雜變量（例如回答長度），可以將分數(shù)的增加歸因于混雜變量，而不是模型能力本身。

相關代碼已在Google Colab上公開。

此外團隊還對“只控制長度”和“只控制格式”做了消融實驗。GPT-4o mini、谷歌Gemini系列分數(shù)受格式影響更大。

不過這種做法也存在局限性，比如可能存在未觀察到的混雜因素，例如長度和回答質量之間的正相關，這些因素沒有被考慮在內(nèi)（例如思維鏈提示）。

有不少網(wǎng)友表示，調整后的困難任務榜單與自己的主觀印象更吻合了。

也有人覺得，正是榜單和沖榜的大模型公司這種來回博弈，才能讓整個領域一起進步。

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營