微軟推出Copilot Vision AI助手賦能網(wǎng)頁瀏覽與決策
微軟Copilot正日益智能化,這家由薩蒂亞·納德拉領導的公司剛剛宣布,其AI助手現(xiàn)已具備“視覺”功能,能夠與用戶一起瀏覽互聯(lián)網(wǎng)。
雖然該功能在今年10月就已首次宣布,但公司目前正面向部分Pro訂閱用戶進行預覽。據(jù)微軟介紹,這些用戶將能夠在其Edge瀏覽器上打開的網(wǎng)頁上觸發(fā)Copilot Vision,并就屏幕上可見的內容與其進行交互。
該功能仍處于開發(fā)的早期階段,且相當受限,但一旦完全成熟,對微軟的企業(yè)客戶而言將可能是一個顛覆性的改變——它將在客戶與微軟生態(tài)系統(tǒng)中的產品(如OneDrive、Excel、SharePoint等)互動時,幫助他們進行分析和決策。
從長遠來看,觀察Copilot Vision如何與更加開放且功能強大的代理式產品(如Anthropic和Emergence AI的產品)相抗衡也將頗有趣味。這些產品允許開發(fā)者整合代理,以跨不同供應商的應用程序進行查看、推理和采取行動。
Copilot Vision能帶來什么?
當用戶打開一個網(wǎng)站時,他們可能有一個明確的目標,也可能沒有,但是,當他們有目標時,比如為學術論文進行研究,執(zhí)行所需任務的過程就包括瀏覽網(wǎng)站、閱讀所有內容,然后做出決定(比如是否將網(wǎng)站內容作為論文的參考),同樣的道理也適用于其他日常網(wǎng)絡任務,如購物。
通過全新的Copilot Vision體驗,微軟旨在簡化整個流程。本質上,用戶現(xiàn)在擁有了一個助手,它位于瀏覽器的底部,可以隨時被調用以閱讀網(wǎng)站內容,包括所有文本和圖像,并幫助用戶進行決策。
它能夠立即掃描、分析并提供所有所需信息,同時考慮到用戶的既定目標——就像另一雙眼睛一樣。
這一功能具有深遠的好處——它可以極大地加速你的工作流程——同時考慮到代理正在閱讀和評估你瀏覽的所有內容,它也具有重大影響,然而,微軟已保證,一旦Vision會話關閉,用戶共享的所有上下文和信息都將被刪除。它還指出,網(wǎng)站數(shù)據(jù)不會被捕獲/存儲用于訓練底層模型。
“簡而言之,我們優(yōu)先考慮版權、創(chuàng)作者以及我們用戶的隱私和安全——并將它們置于首位?!盋opilot團隊在宣布該功能預覽的博客文章中寫道。
基于反饋進行擴展
目前,美國已報名參加早期訪問Copilot Labs計劃的部分Copilot Pro訂閱用戶將能夠在其Edge瀏覽器中使用視覺功能。該功能為可選加入,這意味著用戶不必擔心AI一直在讀取他們的屏幕。
此外,在這一階段,該功能將僅適用于部分網(wǎng)站。微軟表示,它將根據(jù)早期用戶的反饋逐步改進該功能,并擴大對更多Pro用戶和其他網(wǎng)站的支持。
從長遠來看,該公司甚至可能將這些功能擴展到其生態(tài)系統(tǒng)中的其他產品,如OneDrive和Excel,從而讓企業(yè)用戶能夠更輕松地工作和做出決策,然而,目前尚無官方確認。更不用說,鑒于此處所表明的謹慎態(tài)度,這可能需要一些時間才能實現(xiàn)。
微軟推出Copilot Vision預覽之際,正是競爭對手在代理式AI領域不斷提高標準之時。Salesforce已在其Customer 360產品中推出了AgentForce,以實現(xiàn)跨銷售、營銷和服務等領域的工作流程自動化。
與此同時,Anthropic推出了“Computer Use”,允許開發(fā)者整合Claude以與計算機桌面環(huán)境進行交互,執(zhí)行以前僅由人類工作者處理的任務,如打開應用程序、與界面互動和填寫表單。