偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strike id="h0qhh"></strike>

^{<blockquote id="h0qhh"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4V學(xué)會(huì)用鍵鼠上網(wǎng)，人類眼睜睜看著它發(fā)帖玩游戲

2023-11-04 12:23:39

GPT-4V-Act，本質(zhì)上是一個(gè)基于Web瀏覽器的AI多模態(tài)助手（Chromium Copilot）。它可以像人類一樣用鼠標(biāo)、鍵盤(pán)和屏幕“查看”網(wǎng)頁(yè)界面，并通過(guò)網(wǎng)頁(yè)中的交互按鍵進(jìn)行下一步操作。

GPT-4V學(xué)會(huì)自動(dòng)操縱電腦，這一天終于還是到來(lái)了。

只需要給GPT-4V接入鼠標(biāo)和鍵盤(pán)，它就能根據(jù)瀏覽器界面上網(wǎng)：

圖片

甚至還能快速摸清楚“播放音樂(lè)”的播放器網(wǎng)站和按鈕，給自己來(lái)一段music：

圖片

是不是有點(diǎn)細(xì)思極恐了？

這是一個(gè)MIT本科生小哥整出來(lái)的新活，名叫GPT-4V-Act。

圖片

只需要幾個(gè)簡(jiǎn)單的工具，GPT-4V就能學(xué)會(huì)控制你的鍵盤(pán)和鼠標(biāo)，用瀏覽器上網(wǎng)發(fā)帖、買東西甚至是玩游戲。

要是用到的工具出bug了，GPT-4V甚至還能意識(shí)到、并試圖解決它。

圖片

來(lái)看看這是怎么做到的。

教GPT-4V“自動(dòng)上網(wǎng)”

GPT-4V-Act，本質(zhì)上是一個(gè)基于Web瀏覽器的AI多模態(tài)助手（Chromium Copilot）。

它可以像人類一樣用鼠標(biāo)、鍵盤(pán)和屏幕“查看”網(wǎng)頁(yè)界面，并通過(guò)網(wǎng)頁(yè)中的交互按鍵進(jìn)行下一步操作。

要實(shí)現(xiàn)這種效果，除了GPT-4V以外，還用到了三個(gè)工具。

一個(gè)是UI界面，可以讓GPT-4V“看見(jiàn)”網(wǎng)頁(yè)截圖，也能讓用戶與GPT-4V發(fā)生交互。

這樣，GPT-4V就能將每一步運(yùn)行思路都通過(guò)對(duì)話框的形式反映出來(lái)，用戶來(lái)決定是否要繼續(xù)讓它操作。

圖片

另一個(gè)是Set-of-Mark Prompting（SoM）工具，讓GPT-4V學(xué)會(huì)交互的一款工具。

圖片

這個(gè)工具由微軟發(fā)明，目的是更好地對(duì)GPT-4V進(jìn)行提示詞工程。

相比讓GPT-4V直接“看圖說(shuō)話”，這個(gè)工具可以將圖片關(guān)鍵細(xì)節(jié)拆分成不同的部分，并進(jìn)行編號(hào)，讓GPT-4V有的放矢：

圖片

對(duì)于網(wǎng)頁(yè)端也是如此，Set-of-Mark Prompting用類似的方式讓GPT-4V知道從網(wǎng)頁(yè)瀏覽器的哪個(gè)部分找答案，并進(jìn)行交互。

最后，還需要用到一個(gè)自動(dòng)標(biāo)注器（JS DOM auto-labeler），可以將網(wǎng)頁(yè)端所有能交互的按鍵標(biāo)注出來(lái)，讓GPT-4V決定要按哪個(gè)。

圖片

一套流程下來(lái)， GPT-4V不僅能準(zhǔn)確判斷圖片上的哪些內(nèi)容符合需求，還能準(zhǔn)確找到交互按鍵，并學(xué)會(huì)“自動(dòng)上網(wǎng)”。

這是個(gè)大項(xiàng)目，目前還只實(shí)現(xiàn)了部分功能，包括點(diǎn)擊、打字交互、自動(dòng)標(biāo)注等。

接下來(lái)，還有其他的一些功能要實(shí)現(xiàn)，例如試試AI打標(biāo)器（目前網(wǎng)頁(yè)端的交互還是通過(guò)通過(guò)JS接口得知哪里能交互，不是AI識(shí)別的）、以及提示用戶輸入詳細(xì)信息等。

圖片

此外，作者也提到，現(xiàn)階段GPT-4V-Act用法上還有一些需要注意的地方。

例如，GPT-4V-Act可能會(huì)被網(wǎng)頁(yè)打開(kāi)后鋪天蓋地的彈窗小廣告給“整懵了”，然后出現(xiàn)交互bug。

圖片

又例如，目前這種玩法可能會(huì)違反OpenAI的產(chǎn)品使用規(guī)定：

除非API允許，否則不得使用任何自動(dòng)化或編程的方法從服務(wù)中提取數(shù)據(jù)并輸出，包括抓取、網(wǎng)絡(luò)收集或網(wǎng)絡(luò)數(shù)據(jù)提取。

圖片

所以用的時(shí)候也要低調(diào)一點(diǎn)（doge）

微軟SoM作者也來(lái)圍觀

這個(gè)項(xiàng)目在網(wǎng)上發(fā)出后，吸引了不少人的圍觀。

像是小哥用到的微軟Set-of-Mark Prompting工具的作者，就發(fā)現(xiàn)了這個(gè)項(xiàng)目：

出色的工作！

圖片

還有網(wǎng)友提到，甚至可以用來(lái)讓AI自己讀取驗(yàn)證碼。

圖片

這個(gè)在SoM項(xiàng)目中提到過(guò)，GPT-4V是能成功解讀驗(yàn)證碼的（所以以后可能還真不知道是人還是機(jī)器在上網(wǎng)）。

圖片

與此同時(shí)，也有網(wǎng)友已經(jīng)在想象桌面流自動(dòng)化（desktop automation）的操作了。

對(duì)此作者回應(yīng)稱：

AI自動(dòng)標(biāo)注器應(yīng)該能實(shí)現(xiàn)這個(gè)，我也確實(shí)在計(jì)劃制作一個(gè)更通用的Copilot。

圖片

不過(guò)目前GPT-4V還是要收費(fèi)的，有沒(méi)有其他的實(shí)現(xiàn)方法？

作者也表示，目前還沒(méi)有，但確實(shí)可能會(huì)嘗試Fuyu-8B或者LLaVAR這樣的開(kāi)源模型。

圖片

免費(fèi)的自動(dòng)化桌面流AI助手，可以期待一波了。

參考鏈接：
[1]https://github.com/ddupont808/GPT-4V-Act
[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/

責(zé)任編輯：武曉燕來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)