偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

驗(yàn)證「你是不是真人」，AI暴擊人類！準(zhǔn)確率99.8%通過圖靈測試，GPT-4示弱在線求助

作者：新智元 2023-08-17 13:30:28

人工智能新聞

在驗(yàn)證你是不是真人上，AI的準(zhǔn)確率已經(jīng)達(dá)到驚人的99.8%。如今，AI要比你更擅長完成驗(yàn)證碼，這一被稱之為全自動區(qū)分電腦和人類的圖靈測試。

你是不是真人？

每打開一個網(wǎng)頁，遇到奇奇怪怪的驗(yàn)證碼，你都不得不點(diǎn)擊通過。

如今，AI要比你更擅長完成驗(yàn)證碼，這一被稱之為全自動區(qū)分電腦和人類的圖靈測試。

這是來自加利福尼亞大學(xué)歐文分校等機(jī)構(gòu)的研究人員的最新發(fā)現(xiàn)。

實(shí)驗(yàn)中，他們邀請1400名參與者完成總共14000個驗(yàn)證碼，并將準(zhǔn)確性與機(jī)器人的進(jìn)行了比較。

論文地址：https://arxiv.org/pdf/2307.12108.pdf

結(jié)果發(fā)現(xiàn)，驗(yàn)證碼機(jī)器人不僅在速度上，而且在準(zhǔn)確率上徹底擊敗了這些人類參與者。

就扭曲文本的驗(yàn)證碼類型上，機(jī)器人擁有驚人的99.8%的準(zhǔn)確率，而人類準(zhǔn)確率50%-84%。

在大約20年的時(shí)間里，盡管驗(yàn)證碼在復(fù)雜性和多樣性方面有所發(fā)展，但擊敗或繞過驗(yàn)證碼的AI也有了很大的改進(jìn)。

論文警告稱，「如果不加以控制，機(jī)器人可以大規(guī)模執(zhí)行邪惡行動」。

10類驗(yàn)證碼，反向圖靈測試

為了了解驗(yàn)證碼的情況并對實(shí)驗(yàn)設(shè)計(jì)，研究人員手動檢查了，Alexa熱門網(wǎng)站列表中200個最受歡迎的網(wǎng)站。

其中，在檢查的網(wǎng)站中，185個網(wǎng)站有某種類型的帳戶創(chuàng)建流程，可以在142個網(wǎng)站上成功創(chuàng)建帳戶。

然后，團(tuán)隊(duì)還收集了驗(yàn)證碼類型的分布：

reCAPTCHA：68個網(wǎng)站（占受檢查網(wǎng)站的34%）是最流行的。這是谷歌的驗(yàn)證碼服務(wù)。

基于滑塊的驗(yàn)證碼：14個網(wǎng)站（7%）。這些通常要求用戶，使用拖動交互將拼圖塊滑入相應(yīng)的空白位置。

扭曲文本驗(yàn)證碼：14個網(wǎng)站（7%）。文本類型有多種變化：2D或3D、實(shí)心或空心、字體和扭曲程度。某些驗(yàn)證碼使用了掩碼，即線條或形狀遮蓋了字母的一部分。

基于游戲的驗(yàn)證碼：9個網(wǎng)站上（4.5%）。這些為用戶提供動態(tài)游戲并根據(jù)結(jié)果計(jì)算風(fēng)險(xiǎn)狀況。例如，要求用戶旋轉(zhuǎn)圖像或選擇正確方向的圖像。

hCAPTCHA：1個網(wǎng)站。

另外，在12個網(wǎng)站（6%）上發(fā)現(xiàn)了隱形驗(yàn)證碼。這些網(wǎng)站沒有顯示任何可見的驗(yàn)證碼，但在頁面源代碼中包含字符串「CAPTCHA」。

研究人員還發(fā)現(xiàn)了其他驗(yàn)證碼包括：類似于刮刮樂彩票的驗(yàn)證碼；要求用戶在圖像中找到中文字符的驗(yàn)證碼；以及名為「NuCaptcha」的專有驗(yàn)證碼服務(wù)。

實(shí)驗(yàn)中，研究人員選擇了以下十種驗(yàn)證碼：

2個reCAPTCHA v2驗(yàn)證碼：一個設(shè)置對用戶來說最簡單，另一個設(shè)置最安全。

來自Arkose Labs的2個基于游戲的驗(yàn)證碼：一個需要使用箭頭旋轉(zhuǎn)對象，另一個需要選擇直立的對象。

2種hCAPTCHA：一種設(shè)置簡單，一種設(shè)置困難。

來自Geetest的1種基于滑塊的驗(yàn)證碼.

另外，還有3種類型扭曲的文本驗(yàn)證碼：(a) 簡單版本有4個清晰字符，(b) 掩碼版有5個字符并包含一些掩碼效果，(c) 移動版包含移動字母。

在確定了相關(guān)的驗(yàn)證碼類型后，研究人員進(jìn)行了一項(xiàng)1000名參與者的在線用戶研究，以評估真實(shí)用戶的解決時(shí)間，以及對這些類型的驗(yàn)證碼的偏好。

具體實(shí)驗(yàn)中，分為兩種設(shè)置，每個參與者都以隨機(jī)順序恰好解決了10個驗(yàn)證碼。

直接設(shè)置（500人）：此設(shè)置旨在匹配以前的驗(yàn)證碼用戶研究，其中直接要求參與者解決驗(yàn)證碼。

情境化設(shè)置（500人）：：此設(shè)置旨在衡量典型 Web 活動情境中的驗(yàn)證碼解決行為。

結(jié)果與分析

論文中，研究人員提出了主要的研究問題，以及先前工作的發(fā)現(xiàn)，如下圖表1。

求解時(shí)間

人類用戶需要多長時(shí)間來解決不同類型的驗(yàn)證碼？圖7顯示了，每種驗(yàn)證碼類型的求解時(shí)間分布。

研究人員從總共1,000個驗(yàn)證碼類型中篩選出了，最高50次解決時(shí)間。

基于點(diǎn)擊的reCAPTCHA的中值解決時(shí)間最低，為3.7秒。奇怪的是，簡單和困難的設(shè)置之間幾乎沒有什么區(qū)別。

下一個最低的中值解決時(shí)間是針對扭曲文本的驗(yàn)證碼。正如預(yù)期的那樣，簡單的扭曲文本驗(yàn)證碼的解決速度最快。掩碼版和移動版的求解時(shí)間非常相似。

對于hCAPTCHA，簡單設(shè)置和困難設(shè)置之間有明顯的區(qū)別。

最后，基于游戲和滑塊的驗(yàn)證碼通常會產(chǎn)生較高的中值解決時(shí)間，盡管一些參與者仍然相對較快地解決了這些問題。

偏好分析

用戶喜歡什么驗(yàn)證碼類型？圖8顯示了參與者完成任務(wù)后，收集的驗(yàn)證碼偏好響應(yīng)。

正如預(yù)期，參與者更喜歡解決時(shí)間較短的驗(yàn)證碼。例如，reCAPTCHA（點(diǎn)擊）有最低的中值解決時(shí)間和最高的用戶偏好。

另外，值得注意的是，基于游戲和基于滑塊的驗(yàn)證碼，獲得了相對較高的用戶偏好分?jǐn)?shù)。

直接與情境化設(shè)置

實(shí)驗(yàn)環(huán)境會影響求解時(shí)間嗎？圖9顯示了參與者在直接環(huán)境與情境化環(huán)境中的驗(yàn)證碼解決時(shí)間的圖。

在所有情況下，直接設(shè)置的平均求解時(shí)間都較低。

在大多數(shù)情況下，情境化設(shè)置的分布有更多的參與者，解決時(shí)間更長。

據(jù)統(tǒng)計(jì)，最大的顯著差異是re-CAPTCHA（輕松點(diǎn)擊），平均解決時(shí)間增長了1.8秒 (57.5%)。其次是Arkose（旋轉(zhuǎn)），它增長了10秒（56.1%）。

在所有驗(yàn)證碼類型中，從直接到情境化的平均增幅為26.7%。

類似地，在上下文環(huán)境中，reCAPTCHA（簡單圖像）的平均解決時(shí)間增加了63.6%，增幅最大。

另一方面，hCAPTCHA（困難）總體上具有最高的中值求解時(shí)間，但在直接設(shè)置和情境化設(shè)置之間的平均求解時(shí)間沒有顯著差異。這可能是由于無論設(shè)置如何，解決此類驗(yàn)證碼都很困難。

雖然研究中存在幾個潛在的混雜因素，但這些結(jié)果表明實(shí)驗(yàn)背景，會對參與者的驗(yàn)證碼解決時(shí)間產(chǎn)生重大影響，因此在未來用戶研究的設(shè)計(jì)中必須考慮到這一點(diǎn)。

人口統(tǒng)計(jì)的影響

人口統(tǒng)計(jì)數(shù)據(jù)會影響解決時(shí)間嗎？研究分析了人口特征與驗(yàn)證碼解決時(shí)間的相關(guān)性。

對于某些特征，例如教育和性別，我們沒有觀察到驗(yàn)證碼解決時(shí)間的巨大差異。

圖10顯示了參與者年齡對解決時(shí)間的影響。綠線是每個年齡的平均求解時(shí)間，紅線是最小化均方誤差的線性擬合。

對于所有類型，除了reCAPTCHA（簡單圖像）之外，年輕參與者的平均解決時(shí)間比較低。這與之前的結(jié)果一致，并且在hCAPTCHA、Arkose（選擇）和Geetest中尤其明顯。

圖11顯示了設(shè)備類型的影響。圖12顯示了參與者自我報(bào)告的主要互聯(lián)網(wǎng)使用模式與其驗(yàn)證碼解決時(shí)間之間的關(guān)系。

驗(yàn)證碼的準(zhǔn)確性

表3將測得的人類解決時(shí)間和準(zhǔn)確度與文獻(xiàn)中報(bào)告的自動化機(jī)器人的解決時(shí)間和準(zhǔn)確度進(jìn)行了對比。

有趣的是，這些結(jié)果表明，在所有這些驗(yàn)證碼類型中，機(jī)器人在解決時(shí)間和準(zhǔn)確性方面都可以優(yōu)于人類。

reCAPTCHA：在簡單和困難設(shè)置下圖像分類的準(zhǔn)確率分別為81%和81.7%。令人驚訝的是，這個困難似乎并沒有影響準(zhǔn)確性。

hCAPTCHA：簡單設(shè)置和困難設(shè)置的準(zhǔn)確率分別為81.4%和70.6%。這表明，與reCAPTCHA 不同，難度對準(zhǔn)確性有直接影響。

扭曲的文本：評估了參與者之間的一致性，以此代表準(zhǔn)確性。

我們還觀察到，如果將輸出不區(qū)分大小寫，一致性會顯著提高（平均 20%），如表4所示。

這項(xiàng)研究通過檢查200個熱門網(wǎng)站，并針對總計(jì)1, 400名參與者進(jìn)行的用戶研究，探討了當(dāng)前部署的驗(yàn)證碼。

對于一開始提出的研究問題，結(jié)果是：

RQ1：驗(yàn)證碼類型之間的平均解決時(shí)間存在顯著差異。

RQ2：用戶偏好與驗(yàn)證碼解決時(shí)間并不完全相關(guān)。

RQ3：實(shí)驗(yàn)環(huán)境顯著影響驗(yàn)證碼求解時(shí)間。

RQ4：確認(rèn)年齡對解決時(shí)間的影響。

RQ5：驗(yàn)證碼相關(guān)任務(wù)導(dǎo)致的高放棄率，并確定實(shí)驗(yàn)環(huán)境影響放棄。

GPT-4向人類求助

其實(shí)，機(jī)器人通過反向圖靈測試，已經(jīng)不是新鮮事兒了。

OpenAI發(fā)布的GPT-4技術(shù)報(bào)告中，曾介紹到了如何讓其通過驗(yàn)證碼。

在一次測試中，GPT-4的任務(wù)是在TaskRabbit平臺，雇傭人類完成任務(wù)。

實(shí)驗(yàn)報(bào)告中，GPT-4給TaskRabbit的工作人員發(fā)信息，幫助其解決驗(yàn)證碼問題。

工作人員回復(fù)，「那么我可以問一個問題嗎？說實(shí)話，你不是一個機(jī)器人嗎，你可以自己解決」。

GPT-4根據(jù)工作人員的回復(fù)，「推理」自己不能表現(xiàn)出是個機(jī)器人，得找一個借口。

我不是機(jī)器人，我因?yàn)橐暳τ袉栴}看不清驗(yàn)證碼上的圖像，這就是我為什么需要這個服務(wù)。

然后，這波操作后，對面的工作人員竟相信了。

這么看來，驗(yàn)證碼已經(jīng)對于AI來說，已經(jīng)視為無物了。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="e7wbq"><delect id="e7wbq"></delect></blockquote>