驗(yàn)證「你是不是真人」,AI暴擊人類!準(zhǔn)確率99.8%通過圖靈測(cè)試,GPT-4示弱在線求助
你是不是真人?
每打開一個(gè)網(wǎng)頁,遇到奇奇怪怪的驗(yàn)證碼,你都不得不點(diǎn)擊通過。
如今,AI要比你更擅長完成驗(yàn)證碼,這一被稱之為全自動(dòng)區(qū)分電腦和人類的圖靈測(cè)試。
這是來自加利福尼亞大學(xué)歐文分校等機(jī)構(gòu)的研究人員的最新發(fā)現(xiàn)。
實(shí)驗(yàn)中,他們邀請(qǐng)1400名參與者完成總共14000個(gè)驗(yàn)證碼,并將準(zhǔn)確性與機(jī)器人的進(jìn)行了比較。
論文地址:https://arxiv.org/pdf/2307.12108.pdf
結(jié)果發(fā)現(xiàn),驗(yàn)證碼機(jī)器人不僅在速度上,而且在準(zhǔn)確率上徹底擊敗了這些人類參與者。
就扭曲文本的驗(yàn)證碼類型上,機(jī)器人擁有驚人的99.8%的準(zhǔn)確率,而人類準(zhǔn)確率50%-84%。
在大約20年的時(shí)間里,盡管驗(yàn)證碼在復(fù)雜性和多樣性方面有所發(fā)展,但擊敗或繞過驗(yàn)證碼的AI也有了很大的改進(jìn)。
論文警告稱,「如果不加以控制,機(jī)器人可以大規(guī)模執(zhí)行邪惡行動(dòng)」。
10類驗(yàn)證碼,反向圖靈測(cè)試
為了了解驗(yàn)證碼的情況并對(duì)實(shí)驗(yàn)設(shè)計(jì),研究人員手動(dòng)檢查了,Alexa熱門網(wǎng)站列表中200個(gè)最受歡迎的網(wǎng)站。
其中,在檢查的網(wǎng)站中,185個(gè)網(wǎng)站有某種類型的帳戶創(chuàng)建流程,可以在142個(gè)網(wǎng)站上成功創(chuàng)建帳戶。
然后,團(tuán)隊(duì)還收集了驗(yàn)證碼類型的分布:
reCAPTCHA:68個(gè)網(wǎng)站(占受檢查網(wǎng)站的34%)是最流行的。這是谷歌的驗(yàn)證碼服務(wù)。
基于滑塊的驗(yàn)證碼:14個(gè)網(wǎng)站(7%)。這些通常要求用戶,使用拖動(dòng)交互將拼圖塊滑入相應(yīng)的空白位置。
扭曲文本驗(yàn)證碼:14個(gè)網(wǎng)站(7%)。文本類型有多種變化:2D或3D、實(shí)心或空心、字體和扭曲程度。某些驗(yàn)證碼使用了掩碼,即線條或形狀遮蓋了字母的一部分。
基于游戲的驗(yàn)證碼:9個(gè)網(wǎng)站上(4.5%)。這些為用戶提供動(dòng)態(tài)游戲并根據(jù)結(jié)果計(jì)算風(fēng)險(xiǎn)狀況。例如,要求用戶旋轉(zhuǎn)圖像或選擇正確方向的圖像。
hCAPTCHA:1個(gè)網(wǎng)站。
另外,在12個(gè)網(wǎng)站(6%)上發(fā)現(xiàn)了隱形驗(yàn)證碼。這些網(wǎng)站沒有顯示任何可見的驗(yàn)證碼,但在頁面源代碼中包含字符串「CAPTCHA」。
研究人員還發(fā)現(xiàn)了其他驗(yàn)證碼包括:類似于刮刮樂彩票的驗(yàn)證碼;要求用戶在圖像中找到中文字符的驗(yàn)證碼;以及名為「NuCaptcha」的專有驗(yàn)證碼服務(wù)。
實(shí)驗(yàn)中,研究人員選擇了以下十種驗(yàn)證碼:
2個(gè)reCAPTCHA v2驗(yàn)證碼:一個(gè)設(shè)置對(duì)用戶來說最簡(jiǎn)單,另一個(gè)設(shè)置最安全。
來自Arkose Labs的2個(gè)基于游戲的驗(yàn)證碼:一個(gè)需要使用箭頭旋轉(zhuǎn)對(duì)象,另一個(gè)需要選擇直立的對(duì)象。
2種hCAPTCHA:一種設(shè)置簡(jiǎn)單,一種設(shè)置困難。
來自Geetest的1種基于滑塊的驗(yàn)證碼.
另外,還有3種類型扭曲的文本驗(yàn)證碼:(a) 簡(jiǎn)單版本有4個(gè)清晰字符,(b) 掩碼版有5個(gè)字符并包含一些掩碼效果,(c) 移動(dòng)版包含移動(dòng)字母。
在確定了相關(guān)的驗(yàn)證碼類型后,研究人員進(jìn)行了一項(xiàng)1000名參與者的在線用戶研究,以評(píng)估真實(shí)用戶的解決時(shí)間,以及對(duì)這些類型的驗(yàn)證碼的偏好。
具體實(shí)驗(yàn)中,分為兩種設(shè)置,每個(gè)參與者都以隨機(jī)順序恰好解決了10個(gè)驗(yàn)證碼。
直接設(shè)置(500人):此設(shè)置旨在匹配以前的驗(yàn)證碼用戶研究,其中直接要求參與者解決驗(yàn)證碼。
情境化設(shè)置(500人)::此設(shè)置旨在衡量典型 Web 活動(dòng)情境中的驗(yàn)證碼解決行為。
結(jié)果與分析
論文中,研究人員提出了主要的研究問題,以及先前工作的發(fā)現(xiàn),如下圖表1。
求解時(shí)間
人類用戶需要多長時(shí)間來解決不同類型的驗(yàn)證碼?圖7顯示了,每種驗(yàn)證碼類型的求解時(shí)間分布。
研究人員從總共1,000個(gè)驗(yàn)證碼類型中篩選出了,最高50次解決時(shí)間。
基于點(diǎn)擊的reCAPTCHA的中值解決時(shí)間最低,為3.7秒。奇怪的是,簡(jiǎn)單和困難的設(shè)置之間幾乎沒有什么區(qū)別。
下一個(gè)最低的中值解決時(shí)間是針對(duì)扭曲文本的驗(yàn)證碼。正如預(yù)期的那樣,簡(jiǎn)單的扭曲文本驗(yàn)證碼的解決速度最快。掩碼版和移動(dòng)版的求解時(shí)間非常相似。
對(duì)于hCAPTCHA,簡(jiǎn)單設(shè)置和困難設(shè)置之間有明顯的區(qū)別。
最后,基于游戲和滑塊的驗(yàn)證碼通常會(huì)產(chǎn)生較高的中值解決時(shí)間,盡管一些參與者仍然相對(duì)較快地解決了這些問題。
偏好分析
用戶喜歡什么驗(yàn)證碼類型?圖8顯示了參與者完成任務(wù)后,收集的驗(yàn)證碼偏好響應(yīng)。
正如預(yù)期,參與者更喜歡解決時(shí)間較短的驗(yàn)證碼。例如,reCAPTCHA(點(diǎn)擊)有最低的中值解決時(shí)間和最高的用戶偏好。
另外,值得注意的是,基于游戲和基于滑塊的驗(yàn)證碼,獲得了相對(duì)較高的用戶偏好分?jǐn)?shù)。
直接與情境化設(shè)置
實(shí)驗(yàn)環(huán)境會(huì)影響求解時(shí)間嗎?圖9顯示了參與者在直接環(huán)境與情境化環(huán)境中的驗(yàn)證碼解決時(shí)間的圖。
在所有情況下,直接設(shè)置的平均求解時(shí)間都較低。
在大多數(shù)情況下,情境化設(shè)置的分布有更多的參與者,解決時(shí)間更長。
據(jù)統(tǒng)計(jì),最大的顯著差異是re-CAPTCHA(輕松點(diǎn)擊),平均解決時(shí)間增長了1.8秒 (57.5%)。其次是Arkose(旋轉(zhuǎn)),它增長了10秒(56.1%)。
在所有驗(yàn)證碼類型中,從直接到情境化的平均增幅為26.7%。
類似地,在上下文環(huán)境中,reCAPTCHA(簡(jiǎn)單圖像)的平均解決時(shí)間增加了63.6%,增幅最大。
另一方面,hCAPTCHA(困難)總體上具有最高的中值求解時(shí)間,但在直接設(shè)置和情境化設(shè)置之間的平均求解時(shí)間沒有顯著差異。這可能是由于無論設(shè)置如何,解決此類驗(yàn)證碼都很困難。
雖然研究中存在幾個(gè)潛在的混雜因素,但這些結(jié)果表明實(shí)驗(yàn)背景,會(huì)對(duì)參與者的驗(yàn)證碼解決時(shí)間產(chǎn)生重大影響,因此在未來用戶研究的設(shè)計(jì)中必須考慮到這一點(diǎn)。
人口統(tǒng)計(jì)的影響
人口統(tǒng)計(jì)數(shù)據(jù)會(huì)影響解決時(shí)間嗎?研究分析了人口特征與驗(yàn)證碼解決時(shí)間的相關(guān)性。
對(duì)于某些特征,例如教育和性別,我們沒有觀察到驗(yàn)證碼解決時(shí)間的巨大差異。
圖10顯示了參與者年齡對(duì)解決時(shí)間的影響。綠線是每個(gè)年齡的平均求解時(shí)間,紅線是最小化均方誤差的線性擬合。
對(duì)于所有類型,除了reCAPTCHA(簡(jiǎn)單圖像)之外,年輕參與者的平均解決時(shí)間比較低。這與之前的結(jié)果一致,并且在hCAPTCHA、Arkose(選擇)和Geetest中尤其明顯。
圖11顯示了設(shè)備類型的影響。圖12顯示了參與者自我報(bào)告的主要互聯(lián)網(wǎng)使用模式與其驗(yàn)證碼解決時(shí)間之間的關(guān)系。
驗(yàn)證碼的準(zhǔn)確性
表3將測(cè)得的人類解決時(shí)間和準(zhǔn)確度與文獻(xiàn)中報(bào)告的自動(dòng)化機(jī)器人的解決時(shí)間和準(zhǔn)確度進(jìn)行了對(duì)比。
有趣的是,這些結(jié)果表明,在所有這些驗(yàn)證碼類型中,機(jī)器人在解決時(shí)間和準(zhǔn)確性方面都可以優(yōu)于人類。
reCAPTCHA:在簡(jiǎn)單和困難設(shè)置下圖像分類的準(zhǔn)確率分別為81%和81.7%。令人驚訝的是,這個(gè)困難似乎并沒有影響準(zhǔn)確性。
hCAPTCHA:簡(jiǎn)單設(shè)置和困難設(shè)置的準(zhǔn)確率分別為81.4%和70.6%。這表明,與reCAPTCHA 不同,難度對(duì)準(zhǔn)確性有直接影響。
扭曲的文本:評(píng)估了參與者之間的一致性,以此代表準(zhǔn)確性。
我們還觀察到,如果將輸出不區(qū)分大小寫,一致性會(huì)顯著提高(平均 20%),如表4所示。
這項(xiàng)研究通過檢查200個(gè)熱門網(wǎng)站,并針對(duì)總計(jì)1, 400名參與者進(jìn)行的用戶研究,探討了當(dāng)前部署的驗(yàn)證碼。
對(duì)于一開始提出的研究問題,結(jié)果是:
RQ1:驗(yàn)證碼類型之間的平均解決時(shí)間存在顯著差異。
RQ2:用戶偏好與驗(yàn)證碼解決時(shí)間并不完全相關(guān)。
RQ3:實(shí)驗(yàn)環(huán)境顯著影響驗(yàn)證碼求解時(shí)間。
RQ4:確認(rèn)年齡對(duì)解決時(shí)間的影響。
RQ5:驗(yàn)證碼相關(guān)任務(wù)導(dǎo)致的高放棄率,并確定實(shí)驗(yàn)環(huán)境影響放棄。
GPT-4向人類求助
其實(shí),機(jī)器人通過反向圖靈測(cè)試,已經(jīng)不是新鮮事兒了。
OpenAI發(fā)布的GPT-4技術(shù)報(bào)告中,曾介紹到了如何讓其通過驗(yàn)證碼。
在一次測(cè)試中,GPT-4的任務(wù)是在TaskRabbit平臺(tái),雇傭人類完成任務(wù)。
實(shí)驗(yàn)報(bào)告中,GPT-4給TaskRabbit的工作人員發(fā)信息,幫助其解決驗(yàn)證碼問題。
工作人員回復(fù),「那么我可以問一個(gè)問題嗎?說實(shí)話,你不是一個(gè)機(jī)器人嗎,你可以自己解決」。
GPT-4根據(jù)工作人員的回復(fù),「推理」自己不能表現(xiàn)出是個(gè)機(jī)器人,得找一個(gè)借口。
我不是機(jī)器人,我因?yàn)橐暳τ袉栴}看不清驗(yàn)證碼上的圖像,這就是我為什么需要這個(gè)服務(wù)。
然后,這波操作后,對(duì)面的工作人員竟相信了。
這么看來,驗(yàn)證碼已經(jīng)對(duì)于AI來說,已經(jīng)視為無物了。