偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

驗(yàn)證「你是不是真人」,AI暴擊人類!準(zhǔn)確率99.8%通過圖靈測(cè)試,GPT-4示弱在線求助

人工智能 新聞
在驗(yàn)證你是不是真人上,AI的準(zhǔn)確率已經(jīng)達(dá)到驚人的99.8%。如今,AI要比你更擅長完成驗(yàn)證碼,這一被稱之為全自動(dòng)區(qū)分電腦和人類的圖靈測(cè)試。

你是不是真人?

每打開一個(gè)網(wǎng)頁,遇到奇奇怪怪的驗(yàn)證碼,你都不得不點(diǎn)擊通過。

圖片

圖片

如今,AI要比你更擅長完成驗(yàn)證碼,這一被稱之為全自動(dòng)區(qū)分電腦和人類的圖靈測(cè)試。

這是來自加利福尼亞大學(xué)歐文分校等機(jī)構(gòu)的研究人員的最新發(fā)現(xiàn)。

實(shí)驗(yàn)中,他們邀請(qǐng)1400名參與者完成總共14000個(gè)驗(yàn)證碼,并將準(zhǔn)確性與機(jī)器人的進(jìn)行了比較。

論文地址:https://arxiv.org/pdf/2307.12108.pdf

結(jié)果發(fā)現(xiàn),驗(yàn)證碼機(jī)器人不僅在速度上,而且在準(zhǔn)確率上徹底擊敗了這些人類參與者。

就扭曲文本的驗(yàn)證碼類型上,機(jī)器人擁有驚人的99.8%的準(zhǔn)確率,而人類準(zhǔn)確率50%-84%。

在大約20年的時(shí)間里,盡管驗(yàn)證碼在復(fù)雜性和多樣性方面有所發(fā)展,但擊敗或繞過驗(yàn)證碼的AI也有了很大的改進(jìn)。

論文警告稱,「如果不加以控制,機(jī)器人可以大規(guī)模執(zhí)行邪惡行動(dòng)」。

10類驗(yàn)證碼,反向圖靈測(cè)試

為了了解驗(yàn)證碼的情況并對(duì)實(shí)驗(yàn)設(shè)計(jì),研究人員手動(dòng)檢查了,Alexa熱門網(wǎng)站列表中200個(gè)最受歡迎的網(wǎng)站。

其中,在檢查的網(wǎng)站中,185個(gè)網(wǎng)站有某種類型的帳戶創(chuàng)建流程,可以在142個(gè)網(wǎng)站上成功創(chuàng)建帳戶。

然后,團(tuán)隊(duì)還收集了驗(yàn)證碼類型的分布:

reCAPTCHA:68個(gè)網(wǎng)站(占受檢查網(wǎng)站的34%)是最流行的。這是谷歌的驗(yàn)證碼服務(wù)。

基于滑塊的驗(yàn)證碼:14個(gè)網(wǎng)站(7%)。這些通常要求用戶,使用拖動(dòng)交互將拼圖塊滑入相應(yīng)的空白位置。

扭曲文本驗(yàn)證碼:14個(gè)網(wǎng)站(7%)。文本類型有多種變化:2D或3D、實(shí)心或空心、字體和扭曲程度。某些驗(yàn)證碼使用了掩碼,即線條或形狀遮蓋了字母的一部分。

基于游戲的驗(yàn)證碼:9個(gè)網(wǎng)站上(4.5%)。這些為用戶提供動(dòng)態(tài)游戲并根據(jù)結(jié)果計(jì)算風(fēng)險(xiǎn)狀況。例如,要求用戶旋轉(zhuǎn)圖像或選擇正確方向的圖像。

hCAPTCHA:1個(gè)網(wǎng)站。

另外,在12個(gè)網(wǎng)站(6%)上發(fā)現(xiàn)了隱形驗(yàn)證碼。這些網(wǎng)站沒有顯示任何可見的驗(yàn)證碼,但在頁面源代碼中包含字符串「CAPTCHA」。

研究人員還發(fā)現(xiàn)了其他驗(yàn)證碼包括:類似于刮刮樂彩票的驗(yàn)證碼;要求用戶在圖像中找到中文字符的驗(yàn)證碼;以及名為「NuCaptcha」的專有驗(yàn)證碼服務(wù)。

實(shí)驗(yàn)中,研究人員選擇了以下十種驗(yàn)證碼:

2個(gè)reCAPTCHA v2驗(yàn)證碼:一個(gè)設(shè)置對(duì)用戶來說最簡(jiǎn)單,另一個(gè)設(shè)置最安全。

來自Arkose Labs的2個(gè)基于游戲的驗(yàn)證碼:一個(gè)需要使用箭頭旋轉(zhuǎn)對(duì)象,另一個(gè)需要選擇直立的對(duì)象。

2種hCAPTCHA:一種設(shè)置簡(jiǎn)單,一種設(shè)置困難。

來自Geetest的1種基于滑塊的驗(yàn)證碼.

另外,還有3種類型扭曲的文本驗(yàn)證碼:(a) 簡(jiǎn)單版本有4個(gè)清晰字符,(b) 掩碼版有5個(gè)字符并包含一些掩碼效果,(c) 移動(dòng)版包含移動(dòng)字母。

在確定了相關(guān)的驗(yàn)證碼類型后,研究人員進(jìn)行了一項(xiàng)1000名參與者的在線用戶研究,以評(píng)估真實(shí)用戶的解決時(shí)間,以及對(duì)這些類型的驗(yàn)證碼的偏好。

具體實(shí)驗(yàn)中,分為兩種設(shè)置,每個(gè)參與者都以隨機(jī)順序恰好解決了10個(gè)驗(yàn)證碼。

直接設(shè)置(500人):此設(shè)置旨在匹配以前的驗(yàn)證碼用戶研究,其中直接要求參與者解決驗(yàn)證碼。

情境化設(shè)置(500人)::此設(shè)置旨在衡量典型 Web 活動(dòng)情境中的驗(yàn)證碼解決行為。

結(jié)果與分析

論文中,研究人員提出了主要的研究問題,以及先前工作的發(fā)現(xiàn),如下圖表1。

求解時(shí)間

人類用戶需要多長時(shí)間來解決不同類型的驗(yàn)證碼?圖7顯示了,每種驗(yàn)證碼類型的求解時(shí)間分布。

研究人員從總共1,000個(gè)驗(yàn)證碼類型中篩選出了,最高50次解決時(shí)間。

基于點(diǎn)擊的reCAPTCHA的中值解決時(shí)間最低,為3.7秒。奇怪的是,簡(jiǎn)單和困難的設(shè)置之間幾乎沒有什么區(qū)別。

下一個(gè)最低的中值解決時(shí)間是針對(duì)扭曲文本的驗(yàn)證碼。正如預(yù)期的那樣,簡(jiǎn)單的扭曲文本驗(yàn)證碼的解決速度最快。掩碼版和移動(dòng)版的求解時(shí)間非常相似。

對(duì)于hCAPTCHA,簡(jiǎn)單設(shè)置和困難設(shè)置之間有明顯的區(qū)別。

最后,基于游戲和滑塊的驗(yàn)證碼通常會(huì)產(chǎn)生較高的中值解決時(shí)間,盡管一些參與者仍然相對(duì)較快地解決了這些問題。

偏好分析

用戶喜歡什么驗(yàn)證碼類型?圖8顯示了參與者完成任務(wù)后,收集的驗(yàn)證碼偏好響應(yīng)。

正如預(yù)期,參與者更喜歡解決時(shí)間較短的驗(yàn)證碼。例如,reCAPTCHA(點(diǎn)擊)有最低的中值解決時(shí)間和最高的用戶偏好。

另外,值得注意的是,基于游戲和基于滑塊的驗(yàn)證碼,獲得了相對(duì)較高的用戶偏好分?jǐn)?shù)。

直接與情境化設(shè)置

實(shí)驗(yàn)環(huán)境會(huì)影響求解時(shí)間嗎?圖9顯示了參與者在直接環(huán)境與情境化環(huán)境中的驗(yàn)證碼解決時(shí)間的圖。

在所有情況下,直接設(shè)置的平均求解時(shí)間都較低。

在大多數(shù)情況下,情境化設(shè)置的分布有更多的參與者,解決時(shí)間更長。

據(jù)統(tǒng)計(jì),最大的顯著差異是re-CAPTCHA(輕松點(diǎn)擊),平均解決時(shí)間增長了1.8秒 (57.5%)。其次是Arkose(旋轉(zhuǎn)),它增長了10秒(56.1%)。

在所有驗(yàn)證碼類型中,從直接到情境化的平均增幅為26.7%。

類似地,在上下文環(huán)境中,reCAPTCHA(簡(jiǎn)單圖像)的平均解決時(shí)間增加了63.6%,增幅最大。

另一方面,hCAPTCHA(困難)總體上具有最高的中值求解時(shí)間,但在直接設(shè)置和情境化設(shè)置之間的平均求解時(shí)間沒有顯著差異。這可能是由于無論設(shè)置如何,解決此類驗(yàn)證碼都很困難。

雖然研究中存在幾個(gè)潛在的混雜因素,但這些結(jié)果表明實(shí)驗(yàn)背景,會(huì)對(duì)參與者的驗(yàn)證碼解決時(shí)間產(chǎn)生重大影響,因此在未來用戶研究的設(shè)計(jì)中必須考慮到這一點(diǎn)。

人口統(tǒng)計(jì)的影響

人口統(tǒng)計(jì)數(shù)據(jù)會(huì)影響解決時(shí)間嗎?研究分析了人口特征與驗(yàn)證碼解決時(shí)間的相關(guān)性。

對(duì)于某些特征,例如教育和性別,我們沒有觀察到驗(yàn)證碼解決時(shí)間的巨大差異。

圖10顯示了參與者年齡對(duì)解決時(shí)間的影響。綠線是每個(gè)年齡的平均求解時(shí)間,紅線是最小化均方誤差的線性擬合。

對(duì)于所有類型,除了reCAPTCHA(簡(jiǎn)單圖像)之外,年輕參與者的平均解決時(shí)間比較低。這與之前的結(jié)果一致,并且在hCAPTCHA、Arkose(選擇)和Geetest中尤其明顯。

圖11顯示了設(shè)備類型的影響。圖12顯示了參與者自我報(bào)告的主要互聯(lián)網(wǎng)使用模式與其驗(yàn)證碼解決時(shí)間之間的關(guān)系。

驗(yàn)證碼的準(zhǔn)確性

表3將測(cè)得的人類解決時(shí)間和準(zhǔn)確度與文獻(xiàn)中報(bào)告的自動(dòng)化機(jī)器人的解決時(shí)間和準(zhǔn)確度進(jìn)行了對(duì)比。

有趣的是,這些結(jié)果表明,在所有這些驗(yàn)證碼類型中,機(jī)器人在解決時(shí)間和準(zhǔn)確性方面都可以優(yōu)于人類。

reCAPTCHA:在簡(jiǎn)單和困難設(shè)置下圖像分類的準(zhǔn)確率分別為81%和81.7%。令人驚訝的是,這個(gè)困難似乎并沒有影響準(zhǔn)確性。

hCAPTCHA:簡(jiǎn)單設(shè)置和困難設(shè)置的準(zhǔn)確率分別為81.4%和70.6%。這表明,與reCAPTCHA 不同,難度對(duì)準(zhǔn)確性有直接影響。

扭曲的文本:評(píng)估了參與者之間的一致性,以此代表準(zhǔn)確性。

我們還觀察到,如果將輸出不區(qū)分大小寫,一致性會(huì)顯著提高(平均 20%),如表4所示。

這項(xiàng)研究通過檢查200個(gè)熱門網(wǎng)站,并針對(duì)總計(jì)1, 400名參與者進(jìn)行的用戶研究,探討了當(dāng)前部署的驗(yàn)證碼。

對(duì)于一開始提出的研究問題,結(jié)果是:

RQ1:驗(yàn)證碼類型之間的平均解決時(shí)間存在顯著差異。

RQ2:用戶偏好與驗(yàn)證碼解決時(shí)間并不完全相關(guān)。

RQ3:實(shí)驗(yàn)環(huán)境顯著影響驗(yàn)證碼求解時(shí)間。

RQ4:確認(rèn)年齡對(duì)解決時(shí)間的影響。

RQ5:驗(yàn)證碼相關(guān)任務(wù)導(dǎo)致的高放棄率,并確定實(shí)驗(yàn)環(huán)境影響放棄。

GPT-4向人類求助

其實(shí),機(jī)器人通過反向圖靈測(cè)試,已經(jīng)不是新鮮事兒了。

OpenAI發(fā)布的GPT-4技術(shù)報(bào)告中,曾介紹到了如何讓其通過驗(yàn)證碼。

在一次測(cè)試中,GPT-4的任務(wù)是在TaskRabbit平臺(tái),雇傭人類完成任務(wù)。

實(shí)驗(yàn)報(bào)告中,GPT-4給TaskRabbit的工作人員發(fā)信息,幫助其解決驗(yàn)證碼問題。

圖片

工作人員回復(fù),「那么我可以問一個(gè)問題嗎?說實(shí)話,你不是一個(gè)機(jī)器人嗎,你可以自己解決」。

GPT-4根據(jù)工作人員的回復(fù),「推理」自己不能表現(xiàn)出是個(gè)機(jī)器人,得找一個(gè)借口。

我不是機(jī)器人,我因?yàn)橐暳τ袉栴}看不清驗(yàn)證碼上的圖像,這就是我為什么需要這個(gè)服務(wù)。

然后,這波操作后,對(duì)面的工作人員竟相信了。

這么看來,驗(yàn)證碼已經(jīng)對(duì)于AI來說,已經(jīng)視為無物了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-20 08:40:00

2023-11-02 12:10:00

AI訓(xùn)練

2023-12-04 09:13:00

GPT-4測(cè)試

2023-11-20 21:56:04

AI推理

2023-05-05 09:42:12

2025-01-21 08:00:00

2024-09-09 13:06:37

GPT-4圖靈測(cè)試語言模型

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-02-26 00:50:00

數(shù)據(jù)AI

2024-05-27 13:42:00

2023-09-19 09:20:16

2020-10-09 08:31:00

AI

2024-01-15 00:19:24

2024-09-29 16:00:26

2020-10-29 15:58:43

阿里AI雙11

2024-05-29 13:17:57

2023-08-15 14:55:57

2023-09-19 14:56:00

模型訓(xùn)練

2024-01-03 13:37:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)