偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="lf6cy"><thead id="lf6cy"><tbody id="lf6cy"></tbody></thead></abbr>

<wbr id="lf6cy"><sup id="lf6cy"><label id="lf6cy"></label></sup></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4作弊被抓！吉娃娃or松餅打亂順序就出錯(cuò)，LeCun：警惕在訓(xùn)練集上測試

2023-11-13 19:31:47

流行的緩解措施，如自我糾正和思維鏈提示并不能有效解決這些問題，并測試了LLaVA和Bard等多模態(tài)模型存在相似的問題。另外研究還發(fā)現(xiàn)，GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。

GPT-4解決網(wǎng)絡(luò)名梗“吉娃娃or藍(lán)莓松餅”，一度驚艷無數(shù)人。

然鵝，現(xiàn)在它被指出“作弊”了！

圖片

全用原題中出現(xiàn)的圖，只是打亂順序和排列方式。

結(jié)果，最新版全模式合一的GPT-4不但數(shù)錯(cuò)圖片數(shù)量，原來能正確識別的吉娃娃也識別出錯(cuò)了。

圖片

那么為什么GPT-4在原圖上表現(xiàn)的這么好呢？

搞這項(xiàng)測試的UCSC助理教授Xin Eric Wang猜測，原圖在互聯(lián)網(wǎng)上太流行，以至于GPT-4在訓(xùn)練時(shí)多次見過原答案，還給背了下來。

圖靈獎(jiǎng)三巨頭中的LeCun也關(guān)注此事，并表示：

警惕在訓(xùn)練集上測試。

圖片

泰迪和炸雞也無法區(qū)分

原圖究竟有多流行呢，不但是網(wǎng)絡(luò)名梗，甚至在計(jì)算機(jī)視覺領(lǐng)域也成了經(jīng)典問題，并多次出現(xiàn)在相關(guān)論文研究中。

圖片

那么拋開原圖的影響，GPT-4能力究竟局限在哪個(gè)環(huán)節(jié)？許多網(wǎng)友都給出了自己的測試方案。

為了排除排列方式太復(fù)雜是否有影響，有人修改成簡單3x3排列也認(rèn)錯(cuò)很多。

圖片

圖片

有人把其中一些圖拆出來單獨(dú)發(fā)給GPT-4，得到了5/5的正確率。

圖片

但Xin Eric Wang認(rèn)為，把這些容易混淆的圖像放在一起正是這個(gè)挑戰(zhàn)的重點(diǎn)。

圖片

終于，有人同時(shí)用上了讓AI“深呼吸”和“一步一步地想”兩大咒語，得到了正確結(jié)果。

圖片

但GPT-4在回答中的用詞“這是視覺雙關(guān)或著名梗圖的一個(gè)例子”，也暴露了原圖確實(shí)可能存在于訓(xùn)練數(shù)據(jù)里。

圖片

最后也有人測試了經(jīng)常一起出現(xiàn)的“泰迪or炸雞”測試，發(fā)現(xiàn)GPT-4也不能很好分辨。

圖片

但是這個(gè)“藍(lán)莓or巧克力豆”就實(shí)在有點(diǎn)過分了……

圖片

視覺幻覺成熱門方向

大模型“胡說八道”在學(xué)術(shù)界被稱為幻覺問題，多模態(tài)大模型的視覺幻覺問題，已經(jīng)成了最近研究的熱門方向。

在EMNLP 2023一篇研究中，構(gòu)建了GVIL數(shù)據(jù)集，包含1600個(gè)數(shù)據(jù)點(diǎn)，系統(tǒng)性的評估視覺幻覺問題。

圖片

研究發(fā)現(xiàn)，規(guī)模更大的模型更容易受到錯(cuò)覺的影響，而且更接近人類感知。

圖片

另一篇?jiǎng)偝鰻t的研究則重點(diǎn)評估了兩種幻覺類型：偏差和干擾。

圖片

偏差指模型傾向于產(chǎn)生某些類型的響應(yīng)，可能是由于訓(xùn)練數(shù)據(jù)的不平衡造成的。
干擾則是可能因文本提示的措辭方式或輸入圖像的呈現(xiàn)方式造成去別的場景。

圖片

研究中指出GPT-4V一起解釋多個(gè)圖像時(shí)經(jīng)常會(huì)困惑，單獨(dú)發(fā)送圖像時(shí)表現(xiàn)更好，符合“吉娃娃or松餅”測試中的觀察結(jié)果。

圖片

流行的緩解措施，如自我糾正和思維鏈提示并不能有效解決這些問題，并測試了LLaVA和Bard等多模態(tài)模型存在相似的問題。

另外研究還發(fā)現(xiàn)，GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。

比如GPT-4V能正確數(shù)出七個(gè)小矮人+白雪公主，卻把七個(gè)葫蘆娃數(shù)成了10個(gè)。

圖片

參考鏈接：[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

責(zé)任編輯：武曉燕來源：量子位

GPT-4V LLaVA Bard

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="xej59"><td id="xej59"></td></blockquote>

<abbr id="xej59"></abbr>

<u id="xej59"><tt id="xej59"></tt></u><wbr id="xej59"></wbr>

<abbr id="xej59"><tt id="xej59"></tt></abbr>