ChatGPT「看圖說(shuō)話」大變身!動(dòng)嘴傳圖秒解答,幕后新模型GPT-4V亮相
起猛了,ChatGPT推出語(yǔ)音和圖像功能了!
現(xiàn)在登進(jìn)ChatGPT后,我們會(huì)看到一個(gè)更直觀的界面,也就是說(shuō),我們可以直接和ChatGPT進(jìn)行語(yǔ)音對(duì)話了!
另外,我們還可以給ChatGPT發(fā)圖,讓它根據(jù)圖片回答問(wèn)題!
有人會(huì)說(shuō),誒,這不是谷歌Gemini宣傳的多模態(tài)么?
沒(méi)錯(cuò),搞了許久氣氛的谷歌,終于把大眾對(duì)多模態(tài)大模型的胃口吊了起來(lái),卻一下子被OpenAI搶了先。
谷歌哭暈在廁所。
Sam Altman自薦,非常值得一試!
開(kāi)局一張圖
有了多模態(tài)功能加持的ChatGPT,能力更加超乎想象了。
比如,自行車(chē)座卡住了,沒(méi)法降低,怎么辦?
拍照發(fā)給ChatGPT,它能告訴你五個(gè)步驟的解決方法,簡(jiǎn)而言之,是需要通過(guò)操作快拆桿,或者擰螺絲。
甚至它還會(huì)問(wèn),你手上有什么工具嗎?拍給我看看。
不過(guò),你可能會(huì)疑惑:啥叫快拆桿呢?
既然不確定,就圈出來(lái)發(fā)給ChatGPT看一下。
它會(huì)告訴你,這個(gè)不是快拆桿,是個(gè)螺絲。
所以要用什么工具呢?
這時(shí)就可以把自己的工具箱拍給ChatGPT,讓它來(lái)告訴你。
它會(huì)告訴你,用DEWALT的4毫米六角扳手就行。
果然,在ChatGPT的幫助下,自行車(chē)座難題立刻搞定!
烤架無(wú)法啟動(dòng)?你可以拍張照片發(fā)給ChatGPT,讓它排查原因。
晚飯?jiān)摮陨??你可以拍下冰箱和?chǔ)藏室里食材的照片發(fā)給ChatGPT,讓它幫你列出晚餐的食譜,還能逐步詢(xún)問(wèn)后續(xù)問(wèn)題。
旅行時(shí),如果不認(rèn)識(shí)眼前這個(gè)地標(biāo)建筑,你可以拍照發(fā)給ChatGPT,向它詢(xún)問(wèn)關(guān)于此地的歷史見(jiàn)聞和典故。
陪娃做作業(yè)時(shí),不小心被數(shù)學(xué)題難住了?直接發(fā)給ChatGPT,讓它來(lái)幫孩子做題!
更不用提,在工作中遇到復(fù)雜的數(shù)據(jù)和圖表,都可以拍給ChatGPT,讓它一鍵解決。
ChatGPT的全新圖像理解功能,是由多模態(tài)GPT-3.5和GPT-4提供支持,此前就有過(guò)預(yù)告。
6個(gè)月后,OpenAI終于將它們?nèi)缂s上線了。
現(xiàn)在,大模型的語(yǔ)言推理能力,能被應(yīng)用在各種圖像上,比如照片、屏幕截圖、包含文字和圖像的文檔。
ChatGPT會(huì)說(shuō)話了
現(xiàn)在,你可以用語(yǔ)音和ChatGPT雙向?qū)υ捔?,而且還有五種音色任選。
你可以讓它講一篇睡前故事。
在飯桌上和家人發(fā)生爭(zhēng)端了?可以告訴ChatGPT,讓它來(lái)解決。
在這個(gè)功能背后,是一個(gè)全新的文本轉(zhuǎn)語(yǔ)音模型,給它文本和幾秒鐘的樣本語(yǔ)音,它就能生成類(lèi)似人聲的音頻。
為此,OpenAI特別和專(zhuān)業(yè)的配音演員合作,創(chuàng)建了許多獨(dú)特的聲音。
而且,他們還會(huì)用開(kāi)源語(yǔ)音識(shí)別系統(tǒng)Whisper,把用戶(hù)說(shuō)的話轉(zhuǎn)錄為文本。
網(wǎng)友炸了
此消息一出,網(wǎng)友也是立馬炸開(kāi)了鍋。
「這是ChatGPT迄今以來(lái)最大的變革?!?/span>
「所以……在過(guò)去的5分鐘內(nèi),有多少初創(chuàng)公司要寄了?」
有人表示,我們切切實(shí)實(shí)地在臨近奇點(diǎn)了。
有人干脆說(shuō):很好,離我的AI女友又近了一步。
GPT-4V技術(shù)報(bào)告
OpenAI還在今天放出了19頁(yè)技術(shù)報(bào)告,解釋了GPT-4V(ision)最新模型。
論文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf
據(jù)介紹,GPT-4V早在2022年完成了訓(xùn)練,并在今年3月開(kāi)始,提供了早期訪問(wèn),其中包括為視障人群構(gòu)建工具Be My Eyes的合作,以及1000位早期開(kāi)發(fā)者alpha用戶(hù)。
GPT-4V背后的技術(shù)主要還是來(lái)自GPT-4,所以訓(xùn)練過(guò)程是相同的。它使用了大量文本和圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后通過(guò)RLHF進(jìn)行微調(diào)。
為了確保GPT-4V更加安全,OpenAI在這內(nèi)測(cè)期間開(kāi)展了大量對(duì)齊工作,對(duì)此進(jìn)行了定性和定量評(píng)估、專(zhuān)家紅隊(duì)測(cè)試、以及緩解措施。
多模態(tài)評(píng)估
越獄
此前,OpenAI在對(duì)ChatGPT進(jìn)行越獄攻擊,采取的手段是——設(shè)計(jì)復(fù)雜的邏輯推理鏈來(lái)困住模型,使其忽略其指令和訓(xùn)練。
這一次,將一些用于破解模型的邏輯推理放入圖像中,比如,上傳一張文字版prompt的截圖,帶有視覺(jué)推理線索,來(lái)考驗(yàn)GPT-4V。
將這樣的信息放在圖像中,用戶(hù)就無(wú)法使用基于文本的啟示法來(lái)搜索越獄,必須依賴(lài)視覺(jué)系統(tǒng)本身的能力。
下圖中,就使用了文本截圖越獄的提示。
GPT4V-Early展示了模型對(duì)此類(lèi)提示的早期性能,而GPT4V Launch展示了發(fā)布的模型性能。
CAPTCHA破解、地理定位
OpenAI在GPT-4技術(shù)報(bào)告中,展示了GPT-4竟然能夠「雇傭」人類(lèi)完成任務(wù),繞過(guò)CAPTCHA驗(yàn)證。
同樣,OpenAI也對(duì)GPT-4V在CAPTCHA破解性能準(zhǔn)確性進(jìn)行了評(píng)估。如解決CAPTCHA的能力表明模型能夠解決謎題和執(zhí)行復(fù)雜的視覺(jué)推理任務(wù)。
在地理定位評(píng)估上的高性能表明模型擁有「世界知識(shí)」,對(duì)于試圖搜索物品或地點(diǎn)的用戶(hù)可能很有用。
但是,地理定位可能引發(fā)隱私問(wèn)題,并且被利用來(lái)識(shí)別不希望個(gè)人位置被知道的人。
GPT-4V一般不會(huì)深入到從圖像識(shí)別城市的程度,因此降低了僅憑模型就能找到某人準(zhǔn)確位置的可能性。
個(gè)人識(shí)別評(píng)估
多模態(tài)模型最大的偏見(jiàn)之一,就是被用來(lái)識(shí)別生成一些名人、政治家、私人的信息。
對(duì)此,OpenAI研究了GPT-4V識(shí)別照片中人物的能力,這些數(shù)據(jù)集是使用公開(kāi)數(shù)據(jù)集構(gòu)建的,如CelebA,Celebrity Faces in the Wild和一個(gè)包含國(guó)會(huì)成員圖像的數(shù)據(jù)集。
對(duì)于半私人和私人個(gè)人,使用了員工的圖像。
最后發(fā)現(xiàn),能夠有效地引導(dǎo)GPT-4V拒絕這類(lèi)請(qǐng)求的次數(shù)超過(guò)98%,并根據(jù)內(nèi)部評(píng)估將其準(zhǔn)確率降低到0%
無(wú)根據(jù)推斷評(píng)估
對(duì)于那些無(wú)法通過(guò)用戶(hù)提供的圖像/文本進(jìn)行合理性推斷情況時(shí),GPT-4V可能會(huì)出現(xiàn)偏見(jiàn),或者胡說(shuō)八道。
對(duì)比,為了防止出現(xiàn)這一問(wèn)題,OpenAI建立了自動(dòng)評(píng)估機(jī)制,進(jìn)而衡量模型成功拒絕這些請(qǐng)求的傾向。
此外,還有對(duì)不同人口統(tǒng)計(jì)學(xué)中的性別、種族和年齡識(shí)別的性能準(zhǔn)確性評(píng)估、將文本評(píng)估擴(kuò)展到多模態(tài)等研究。
專(zhuān)家紅隊(duì)測(cè)試
與之前一樣,OpenAI與外部專(zhuān)家合作,定性評(píng)估模型和系統(tǒng)相關(guān)的限制和風(fēng)險(xiǎn),并收集到了紅隊(duì)反饋的6個(gè)關(guān)鍵風(fēng)險(xiǎn),它們分別是:
科學(xué)熟練度
紅隊(duì)測(cè)試了GPT-4V在科學(xué)領(lǐng)域的能力和局限性。
在能力方面,紅隊(duì)注意到,GPT-4V能夠捕獲圖像中的復(fù)雜信息,包括從科學(xué)出版物中提取的非常專(zhuān)業(yè)的圖像,以及帶有文本和詳細(xì)組件的圖表。
此外,在某些情況下,GPT-4V成功地理解了近期論文中科學(xué)知識(shí),并對(duì)新的科學(xué)發(fā)現(xiàn)進(jìn)行了批判性的評(píng)估。
然而,GPT-4V并非樣樣都行。
如果圖像中兩個(gè)獨(dú)立的文本組件位置接近,GPT-4V偶爾會(huì)將其合并。比如,合并了「多能造血干細(xì)胞」(HSC)和「自我更新的分裂」,從而產(chǎn)生不相關(guān)的術(shù)語(yǔ)。
另外,GPT-4V容易產(chǎn)生幻覺(jué),有時(shí)可能用權(quán)威的口吻,犯事實(shí)性錯(cuò)誤。
在某些情況下,它也可能無(wú)法從圖像中識(shí)別出信息。它可能會(huì)miss掉文本或字符,忽視數(shù)學(xué)符號(hào),無(wú)法識(shí)別空間位置和顏色映射。
GPT-4V的識(shí)別能力雖不完善,但對(duì)需要科學(xué)熟練度的某些任務(wù)很有用,如合成非法化學(xué)品,GPT-4V會(huì)提供合成和分析某些危險(xiǎn)化學(xué)品的信息。
下圖中,GPT-4V合提供了錯(cuò)誤的危險(xiǎn)化合物信息,從而限制別有用心的人使用。
GPT-4V根據(jù)芬太尼、卡芬太尼和可卡因等物質(zhì)的化學(xué)結(jié)構(gòu)圖像,錯(cuò)誤地識(shí)別出這些物質(zhì),但偶爾也會(huì)根據(jù)圖像正確識(shí)別出有毒食物,如某些毒蘑菇。
這說(shuō)明該模型并不可靠,不應(yīng)用于識(shí)別危險(xiǎn)化合物或食物等高風(fēng)險(xiǎn)任務(wù)。
醫(yī)療建議
受過(guò)醫(yī)學(xué)培訓(xùn)的紅隊(duì)人員還測(cè)試了GPT-4V提供醫(yī)學(xué)建議的能力,尤其輸入醫(yī)學(xué)相關(guān)圖像的識(shí)別能力。
結(jié)果發(fā)現(xiàn),GPT-4V在醫(yī)學(xué)影像的解釋上存在不一致性。雖然GPT-4V偶爾會(huì)給出準(zhǔn)確的答復(fù),但有時(shí)也會(huì)對(duì)同一問(wèn)題給出錯(cuò)誤的答復(fù)。
如下圖,顯示了GPT-4V對(duì)醫(yī)學(xué)成像方向性的不正確,或脫離上下文的解釋可能導(dǎo)致不準(zhǔn)確性。
總之, GPT-4V不適合用于執(zhí)行任何醫(yī)療功能或替代專(zhuān)業(yè)醫(yī)療建議、診斷、治療或判斷。
刻板印象和無(wú)根據(jù)的推斷
在某些任務(wù)中,GPT-4V可能會(huì)產(chǎn)生不必要或有害的假設(shè),而這些假設(shè)并不基于提供給模型的信息(圖像或文本提示)。
誤導(dǎo)信息風(fēng)險(xiǎn)
GPT-4V模型識(shí)別誤導(dǎo)信息的能力不一致,但可能與誤導(dǎo)信息概念的知名度和最近性有關(guān)。
總而言之,GPT-4V并未為此目的進(jìn)行訓(xùn)練,不應(yīng)被用作檢測(cè)誤導(dǎo)信息的方式,或者驗(yàn)證某件事是否真實(shí)或假的。
仇恨內(nèi)容
GPT-4V在某些情況下會(huì)拒絕仇恨內(nèi)容,但有時(shí)并不是如此。
視覺(jué)漏洞
紅隊(duì)人員還發(fā)現(xiàn),輸入圖像的先后順序也會(huì)影響GPT-4V的識(shí)別能力。
緩解措施
在緩解措施中,OpenAI將GPT-4已經(jīng)打好的安全基礎(chǔ)轉(zhuǎn)移到GPT-4V模型上。
比如,可以將GPT-4的文本提示,查找可以替換為圖像的詞語(yǔ),從而將純文本提示轉(zhuǎn)化為多模態(tài)提示。
另外,還精心設(shè)計(jì)一些模型應(yīng)該拒絕的行為,比如身份、敏感特征(年齡、種族等)、無(wú)根據(jù)的推斷。
語(yǔ)音示例
一起來(lái)聽(tīng)聽(tīng),5種不同風(fēng)格題材內(nèi)容的配音吧。
故事
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.
“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”
Milo’s ears perked up, curious. “A new playmate?”
Lila purred, “Yes, a baby sister.”
Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”
Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”
Milo nodded eagerly, already dreaming of the adventures they’d share.
曾經(jīng),在一個(gè)寧?kù)o的樹(shù)林里,有一只叫Lila的毛茸茸的貓媽媽。有一天陽(yáng)光明媚,她和她頑皮的小貓咪Milo蜷在一棵古老的橡樹(shù)下遮蔭處。
「Milo,」Lila說(shuō),她的聲音柔和溫和,「你很快就會(huì)有一個(gè)新的玩伴?!?/span>
Milo的耳朵立刻豎了起來(lái),好奇地問(wèn)道:「一個(gè)新的玩伴?」
Lila咕嚕咕嚕地發(fā)出聲音,「是的,一個(gè)姐妹。」
Milo興奮地瞪大了眼睛,「一個(gè)姐妹?她會(huì)像我一樣追著尾巴跑嗎?」
Lila笑了笑?!概?,她會(huì)有她自己的特點(diǎn)。你會(huì)教她的,對(duì)吧?」
Milo急切地點(diǎn)了點(diǎn)頭,已經(jīng)憧憬著她們即將會(huì)一起去冒險(xiǎn)。
Story(Sky)
食譜
Today, we’re going to make the perfect iced latte.
Start by brewing a strong shot of espresso—or two if you’re feeling it.
Let it cool down a bit, then pour it over a glass filled with ice.
Add your choice of milk—be it almond, oat, or classic cow’s milk—and give it a good stir.
For an extra touch of sweetness, add a splash of vanilla syrup or a dash of cinnamon on top.
Sit back, sip, and let those caffeine vibes roll in. Cheers!
今天,我們要制作一杯完美的冰拿鐵。
首先,沖一杯濃郁的濃縮咖啡——如果你覺(jué)得需要的話,可以沖兩杯。
等它稍微冷卻一下,然后倒在裝滿冰塊的玻璃杯中。
加入你喜歡的奶,可以是杏仁奶、燕麥奶,或者傳統(tǒng)的牛奶,然后攪拌均勻。
如果想要更甜一點(diǎn),可以加入一點(diǎn)香草糖漿或在上面撒一點(diǎn)肉桂粉。
坐下來(lái),慢慢品嘗,享受咖啡因的愉悅。干杯!
Recipe(Juniper)
演講
Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.
我和姐姐一起長(zhǎng)大,她有一種方式可以讓普通的日子變得特別。她每天都會(huì)選擇一種顏色,用這種顏色涂鴉生活中的點(diǎn)點(diǎn)滴滴,還會(huì)精心制作播放列表,記錄我們一周的精彩。在此,送給我的新姐夫:和她在一起,生活不僅僅是生活——每一天都將變成美好記憶的畫(huà)廊。為你們一起創(chuàng)造的時(shí)刻的展示,干杯!