偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型,像人一樣操控電腦?

發(fā)布于 2024-10-25 13:56
瀏覽
0收藏

在人工智能的創(chuàng)新之路上,Anthropic 公司再次成為焦點(diǎn),其推出的升級(jí)版 Claude 3.5 Sonnet 模型引發(fā)了廣泛關(guān)注與熱議。一個(gè)核心問(wèn)題擺在我們面前:它真的能夠像人一樣操控電腦嗎?

Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型,像人一樣操控電腦?-AI.x社區(qū)

一、模型發(fā)展與新特性亮相

Claude 3.5 Sonnet 模型有著清晰的發(fā)展脈絡(luò)。2024 年 6 月 21 日首次推出時(shí),它就憑借在編碼、視覺(jué)和自然語(yǔ)言理解能力等方面的出色表現(xiàn)嶄露頭角,在基準(zhǔn)測(cè)試中超越了諸多競(jìng)爭(zhēng)對(duì)手。而 2024 10 22 日推出的升級(jí)版更是帶來(lái)了令人期待的新特性。

Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型,像人一樣操控電腦?-AI.x社區(qū)

其中最引人矚目的當(dāng)屬“Computer Use”功能。這一功能的出現(xiàn),使得 Claude 3.5 Sonnet 模型具備了前所未有的能力——可以像人類(lèi)用戶(hù)一樣操作計(jì)算機(jī)。它能夠理解并執(zhí)行諸如移動(dòng)光標(biāo)、點(diǎn)擊按鈕、輸入文本等操作指令,通過(guò)屏幕觀察獲取信息,進(jìn)而與各種軟件和應(yīng)用進(jìn)行交互。這意味著,理論上它可以幫助用戶(hù)完成一系列復(fù)雜的電腦操作任務(wù),從簡(jiǎn)單的數(shù)據(jù)錄入到復(fù)雜的多步驟流程處理,如在線(xiàn)填寫(xiě)冗長(zhǎng)的表格、精準(zhǔn)搜索特定數(shù)據(jù)、提交格式規(guī)范的報(bào)告等。

二、編程能力與性能提升

在編程領(lǐng)域,升級(jí)版 Claude 3.5 Sonnet 模型展現(xiàn)出了強(qiáng)大的實(shí)力提升。在 SWE - Bench Verified 測(cè)試中,其性能從原來(lái)的 33.4%大幅躍升至 49.0%,成功超越了包括 OpenAI O1 - preview 等在內(nèi)的所有公開(kāi)可用模型。這一成績(jī)的取得,不僅體現(xiàn)了模型在編碼準(zhǔn)確性上的進(jìn)步,更預(yù)示著它在智能體編碼、工具使用任務(wù)等方面將發(fā)揮更大的作用。

Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型,像人一樣操控電腦?-AI.x社區(qū)

早期客戶(hù)反饋也充分證實(shí)了這一提升的價(jià)值。GitLab 在針對(duì) DevSecOps 任務(wù)的測(cè)試中發(fā)現(xiàn),該模型推理能力顯著增強(qiáng)(在不同用例中提升幅度高達(dá) 10%),且沒(méi)有增加延遲,非常適合為多步驟軟件開(kāi)發(fā)流程提供支持。Cognition 利用其進(jìn)行自主 AI 評(píng)估,在編碼、規(guī)劃和問(wèn)題解決能力方面相比之前版本有了大幅改進(jìn)。The Browser Company 在將該模型用于自動(dòng)化基于網(wǎng)絡(luò)的工作流程時(shí),也指出 Claude 3.5 Sonnet 的表現(xiàn)超越了他們此前測(cè)試過(guò)的所有模型。

三、實(shí)際應(yīng)用與行業(yè)探索

諸多企業(yè)已經(jīng)敏銳地察覺(jué)到了 Claude 3.5 Sonnet 模型的潛力,并開(kāi)始積極探索其應(yīng)用可能性。Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司走在了前列。例如,Replit 正在利用 Claude 3.5 Sonnet 的電腦操控和 UI 導(dǎo)航能力,為其 Replit Agent 產(chǎn)品開(kāi)發(fā)一項(xiàng)關(guān)鍵功能,該功能可在應(yīng)用構(gòu)建過(guò)程中對(duì)其進(jìn)行評(píng)估。

然而,我們也必須清醒地認(rèn)識(shí)到,盡管該模型具備了像人一樣操控電腦的潛力,但目前其應(yīng)用仍處于探索階段,存在一定的局限性。在實(shí)際使用過(guò)程中,模型的操作速度和準(zhǔn)確性還有待進(jìn)一步提高。例如,它觀察屏幕的方式類(lèi)似于快速翻閱畫(huà)冊(cè),通過(guò)連續(xù)截圖并拼接來(lái)獲取信息,而非像人類(lèi)一樣實(shí)時(shí)感知連續(xù)的視頻流,這就可能導(dǎo)致它錯(cuò)過(guò)一些短暫出現(xiàn)的動(dòng)作或通知,從而影響任務(wù)執(zhí)行的準(zhǔn)確性和效率。

四、安全性與可靠性考量

隨著模型具備操控電腦的能力,安全性和可靠性成為了至關(guān)重要的問(wèn)題。一方面,人們擔(dān)心模型在訪(fǎng)問(wèn)個(gè)人電腦文件和使用網(wǎng)絡(luò)瀏覽器時(shí),可能會(huì)導(dǎo)致隱私泄露、數(shù)據(jù)安全受到威脅。另一方面,人工智能模型本身的可靠性也面臨挑戰(zhàn),例如模型可能會(huì)出現(xiàn)錯(cuò)誤的操作指令解讀,進(jìn)而引發(fā)系統(tǒng)故障或數(shù)據(jù)錯(cuò)誤。

為了應(yīng)對(duì)這些潛在風(fēng)險(xiǎn),Anthropic 公司采取了一系列積極措施。他們開(kāi)發(fā)了新的分類(lèi)器,用于識(shí)別模型何時(shí)在進(jìn)行電腦操控操作以及是否存在潛在危害。同時(shí),在模型的開(kāi)發(fā)過(guò)程中,也對(duì)其進(jìn)行了針對(duì)災(zāi)難性風(fēng)險(xiǎn)的評(píng)估,確保其符合公司制定的負(fù)責(zé)任擴(kuò)展政策中的 ASL - 2 標(biāo)準(zhǔn)。

五、模型的潛力與未來(lái)展望

盡管存在諸多挑戰(zhàn),但升級(jí)版 Claude 3.5 Sonnet 模型無(wú)疑為人工智能領(lǐng)域開(kāi)辟了新的發(fā)展方向。它代表了人工智能從單純的信息處理向與物理世界更深入交互的轉(zhuǎn)變,為未來(lái)的智能辦公、自動(dòng)化流程處理等提供了新的想象空間。

隨著技術(shù)的不斷發(fā)展和改進(jìn),我們有理由相信,Claude 3.5 Sonnet 模型在電腦操控方面的能力將不斷完善,其應(yīng)用場(chǎng)景也將不斷拓展。但在這個(gè)過(guò)程中,我們必須始終保持謹(jǐn)慎態(tài)度,在充分發(fā)揮其潛力的同時(shí),確保其安全、可靠、可控,以實(shí)現(xiàn)人工智能與人類(lèi)社會(huì)的和諧共生。未來(lái),我們期待看到更多的創(chuàng)新應(yīng)用從這個(gè)模型中誕生,同時(shí)也希望行業(yè)能夠共同努力,制定出更加完善的規(guī)范和標(biāo)準(zhǔn),引導(dǎo)人工智能技術(shù)朝著造福人類(lèi)的方向穩(wěn)健發(fā)展。

總之,Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型在像人一樣操控電腦方面已經(jīng)邁出了重要的一步,但前方的道路依然充滿(mǎn)挑戰(zhàn)與機(jī)遇。我們將持續(xù)關(guān)注其發(fā)展動(dòng)態(tài),見(jiàn)證人工智能在這一領(lǐng)域的不斷演進(jìn)。

本文轉(zhuǎn)載自??小兵的AI視界??,作者: 小兵 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦