撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
現(xiàn)在的大型語言模型(LLM)就像牙膏一樣雞賊,你必須非常用力地?cái)D壓(正確地提示)才能得到適量的牙膏(答案)。
就像奧特曼形容現(xiàn)在的GPT4一樣:“如果你問 GPT-4 大部分問題 10000 次,這 10000 次中可能有一次回答得很好,但它不一定知道是哪一次?!?/p>
也就是說,當(dāng)你拿出大模型這個(gè)牙刷開始刷牙時(shí),你的牙齒可能已經(jīng)被蛀掉了。
這個(gè)問題,似乎也是一個(gè)無解的問題。但就在前天,黑馬出現(xiàn)了!它直接把大語言模型比了下去,讓大家看到了“超級(jí)產(chǎn)品”的希望!
“幾乎以兔子的速度——比現(xiàn)有大型語言模型快10倍”,正如AI創(chuàng)業(yè)公司Rabbit的創(chuàng)始人Jesse Lyu(呂聘)在CES會(huì)上分享時(shí)所說。
圖片
Jesse 給出了一個(gè)嶄新的模型:大型動(dòng)作模型(LAM),似乎可以解決這個(gè)問題。它可以通過擠牙膏的方式(通過文本或語音提示)迅速搞定一個(gè)大模型需要很久才能完成的任務(wù)。
1、一個(gè)小玩意,賣瘋了
本周二,一款口袋大小的橙色小設(shè)備,Rabbit R1迅速走紅網(wǎng)絡(luò),這款設(shè)備在正式發(fā)布后的24小時(shí)內(nèi)售出了10,000臺(tái),售罄。
這小東西外觀大小如同“小霸王”掌中機(jī),觸摸屏、旋轉(zhuǎn)式攝像頭、滾動(dòng)輪。然而指令上,優(yōu)先考慮直觀的手勢(shì)和語音命令,而不是鍵盤和菜單。具體參數(shù)不妨看下:
圖片
Rabbit R1擁有2.88英寸的觸摸屏,由強(qiáng)大的2.3GHz MediaTek處理器提供動(dòng)力,配備4GB RAM和128GB的存儲(chǔ)容量。
此外,它還配備了該公司自研的Rabbit OS操作系統(tǒng),可以快速高效地導(dǎo)航所有應(yīng)用程序,全程無需自己動(dòng)手。
從體驗(yàn)上講,Rabbit有兩個(gè)讓人驚艷叫好的能力。
首先,它能很好地在人和手機(jī)之間扮演一個(gè)非常智能的接口,無須切換應(yīng)用程序和登錄,只要說出你的需求,就能讓它為你服務(wù)。不管是打車、訂餐、發(fā)消息、聽音樂,全都能通過一個(gè)界面來實(shí)現(xiàn),并且售價(jià)非常親民:199美元。
同時(shí)有趣的是,Rabbit還引入了升級(jí)的“teach mode”,只需要用戶演示一遍工作流程,它就可以通過不同的界面進(jìn)化,獲得新技能。會(huì)上,Jesse演示了現(xiàn)場(chǎng)教Rabbit學(xué)習(xí)如何使用Midjourney作圖。
圖片
圖片
Jesse表示,該公司使命是創(chuàng)造最簡(jiǎn)單的計(jì)算機(jī),簡(jiǎn)單到甚至不需要學(xué)習(xí)如何使用。而最好的實(shí)現(xiàn)方法就是,擺脫目前智能手機(jī)使用的基于應(yīng)用程序的操作系統(tǒng)。相反,我們?cè)O(shè)想了一種以自然語言為中心的方法?!彼a(bǔ)充說。
這背后是如何做到的?
2、自研大動(dòng)作模型(LAM)不依賴GPT,速度快10倍
首先,Rabbit沒有依賴OpenAI的模型,而是創(chuàng)建了自己的基礎(chǔ)模型,他們稱之為L(zhǎng)AM(大型動(dòng)作模型)。
Jesse說:“大型動(dòng)作模型,我們稱之為L(zhǎng)AM,是一種新的基礎(chǔ)模型,可以在計(jì)算機(jī)上理解和執(zhí)行人類意圖?!?/p>
圖片
該模型背后基于神經(jīng)符號(hào)系統(tǒng)的研究,“通過大型動(dòng)作模型從根本上找到了解決應(yīng)用程序、API或Agent面臨的挑戰(zhàn)的方法。”
具體什么原理呢?不同于LLM,LAM的建模方法是基于模仿,即學(xué)習(xí)演示,目的在于讓AI系統(tǒng)像人類一樣看待和操作應(yīng)用程序。通過“觀察和復(fù)刻”,它可以了解應(yīng)用程序和服務(wù)是如何被用戶日常使用的,而無須依賴于應(yīng)用程序的編程接口(API)。
換言之,LAM已經(jīng)觀察學(xué)習(xí)了大多數(shù)互聯(lián)網(wǎng)App的交互,并且隨著用戶提供更多的行為數(shù)據(jù),能力也會(huì)進(jìn)化得更強(qiáng)。

這也是為什么,LAM會(huì)比LLM響應(yīng)速度更快的原因!
因?yàn)橐坏樗峁┝搜菔?,新合成的指令就可以直接在目?biāo)應(yīng)用程序上運(yùn)行,而不需要“觀察”或“思考”的忙碌循環(huán)。LAM隨著時(shí)間的推移從演示中積累知識(shí),它深入了解了應(yīng)用程序所暴露的界面的各個(gè)方面,并創(chuàng)建了應(yīng)用程序所提供的底層服務(wù)的“概念藍(lán)圖”。LAM可以被視為一座橋梁,通過應(yīng)用程序的界面將用戶連接到這些服務(wù)。
圖片
此外,“LAM可以學(xué)習(xí)任何軟件的任何界面,無論它們?cè)谀膫€(gè)平臺(tái)上運(yùn)行。簡(jiǎn)而言之,LLM理解你說的話,而LAM模型則將事情付諸行動(dòng)。我們使用LAM將AI從語言轉(zhuǎn)化為行動(dòng)?!盝esse說。
與LLM相比,LAM的突破之處在于,它不僅超越了語言處理,還旨在根據(jù)文本指令在現(xiàn)實(shí)世界中執(zhí)行操作。它接受指令并利用其語言理解力在數(shù)字環(huán)境中導(dǎo)航并完成任務(wù),例如預(yù)訂航班、訂購(gòu)食物或控制智能家居設(shè)備。
“大型語言模型,如ChatGPT,展示了AI理解自然語言的可能性;而我們的大型動(dòng)作模型更進(jìn)一步:它不僅根據(jù)人類輸入生成文本,還代表用戶生成行動(dòng)以幫助我們完成任務(wù)?!盝esse提到。
LAM與Rabbit OS一起工作,該操作系統(tǒng)在安全的云上運(yùn)行應(yīng)用程序。Rabbit Hole是一個(gè)一體化的網(wǎng)絡(luò)門戶,旨在管理與Rabbit OS和配套設(shè)備的各種關(guān)系。例如,如果有人想聽音樂,他們可以訪問Rabbit Hole Web門戶并登錄到第三方應(yīng)用程序如Spotify。
圖片
具體分為三步:intention、inferface、interaction。
意圖:Rabbit OS將首先理解你所說的話是什么意思。人類的意圖是非常個(gè)人化的,有層次性的,可能是不完整的,可能會(huì)一時(shí)興起而改變。rabbit OS利用其對(duì)用戶的長(zhǎng)期記憶,將用戶的請(qǐng)求轉(zhuǎn)化為L(zhǎng)AM可以實(shí)時(shí)利用的可操作步驟和響應(yīng)。
接口:然后,LAM了解如何日常使用應(yīng)用程序和服務(wù),而不依賴于應(yīng)用程序編程接口(API)。LAM可以像人類一樣學(xué)會(huì)在世界上觀察和行動(dòng)。
交互:LAM是會(huì)在云端的虛擬環(huán)境中完成這些任務(wù),從預(yù)訂航班或預(yù)訂等基本任務(wù)到在Photoshop上編輯圖像或流媒體音樂和電影等復(fù)雜任務(wù)。不需要復(fù)雜的本地設(shè)置,例如安裝應(yīng)用程序、Chrome插件或在命令行中鍵入代碼。只需與rabbit操作系統(tǒng)對(duì)話即可。
3、大模型的短板:不擅長(zhǎng)理解原始文本的App
Rabbit做了一項(xiàng)研究,顯示大語言模型,即便強(qiáng)如GPT-4,在理解原始文本的應(yīng)用程序方面,能力依舊不足。
Rabbit測(cè)量了在不同HTML快照中表示常見網(wǎng)絡(luò)應(yīng)用程序所需的Token數(shù)。即便用GPT-4,使用其現(xiàn)有的分詞器,很難將原始文本應(yīng)用程序的表示形式適應(yīng)其上下文窗口。
圖片
神經(jīng)語言模型在設(shè)計(jì)上并不適合單獨(dú)執(zhí)行這些任務(wù)。盡管它們已經(jīng)顯示出理解和利用應(yīng)用程序編程接口的能力,但用戶界面與之非常不同,而且本質(zhì)上不兼容文本。
這意味著任何操作用戶界面的神經(jīng)語言模型都需要進(jìn)行預(yù)處理步驟,將應(yīng)用程序和在其上執(zhí)行的操作轉(zhuǎn)換為原始文本、柵格化圖像或某種標(biāo)記序列的過渡表示。然后,將使用測(cè)試時(shí)間自適應(yīng)提示模板、指令驅(qū)動(dòng)或基于強(qiáng)化學(xué)習(xí)的微調(diào)的某種推理形式。
這就說明,讓語言模型充當(dāng)端到端(行動(dòng))推理器,目前還是一項(xiàng)難以出色完成的任務(wù)。
而通過利用符號(hào)算法,Rabbit做到了,可以實(shí)現(xiàn)可解釋性、快速推理,并執(zhí)行滿足用戶意圖的行動(dòng)。
據(jù)悉,受到機(jī)器學(xué)習(xí)和神經(jīng)技術(shù)成功的啟發(fā),PL/FM社區(qū)最近在神經(jīng)符號(hào)方法方面取得了重大進(jìn)展:通過將神經(jīng)技術(shù)(如LLM)和符號(hào)技術(shù)相結(jié)合,人們最終將兩個(gè)世界的最佳部分結(jié)合在一起,使創(chuàng)建可擴(kuò)展和可解釋的學(xué)習(xí)代理成為可行的任務(wù)。
然而,迄今為止,還沒有人將尖端的神經(jīng)符號(hào)技術(shù)投入生產(chǎn)——LAM旨在開拓這一方向。
4、在網(wǎng)頁(yè)導(dǎo)航任務(wù)中LAM性能一騎絕塵
Web環(huán)境,以及移動(dòng)和桌面環(huán)境,都是LAM的適用場(chǎng)景。MiniWoB++算法盡管最近在模擬環(huán)境中展示的網(wǎng)頁(yè)導(dǎo)航算法已經(jīng)達(dá)到了人類水平的表現(xiàn),但從實(shí)際效果上看,依然差強(qiáng)人意。在MindWeb基準(zhǔn)數(shù)據(jù)集上測(cè)試時(shí),最有效的方法僅在定位目標(biāo)元素時(shí)達(dá)到70.8%的準(zhǔn)確率。而LAM則可以做到89.6%!
Rabbit團(tuán)隊(duì)使用內(nèi)部基準(zhǔn)對(duì)LAM進(jìn)行了初步評(píng)估。該數(shù)據(jù)集包括283個(gè)事件,其中包含從14個(gè)不同的實(shí)際網(wǎng)站收集的17個(gè)任務(wù),包括Airbb、Google Flights、Shein、Spotify等。團(tuán)隊(duì)評(píng)估了純神經(jīng)方法和神經(jīng)符號(hào)方法。結(jié)果顯示,純神經(jīng)方法在定位目標(biāo)元素方面表現(xiàn)出競(jìng)爭(zhēng)力,而整合符號(hào)方法可顯著提高準(zhǔn)確性和延遲。
圖片
為了使AI能夠表現(xiàn)得像人類一樣,Rabbit構(gòu)建了一個(gè)特殊的虛擬化環(huán)境集群來運(yùn)行LAM,用于消費(fèi)者應(yīng)用程序。無論是在測(cè)試階段還是生產(chǎn)階段,它都提供了先進(jìn)的安全性和可擴(kuò)展性,進(jìn)而快速構(gòu)建出了LAM的原型。
5、為什么不干脆做成個(gè)App?Siri會(huì)跟進(jìn)嗎?
不過也有人表示,確實(shí)看起來不錯(cuò),但為啥不干脆做成一個(gè)App呢?

這個(gè)問題很快被網(wǎng)友回答了:首先蘋果或谷歌幾乎不可能允許平臺(tái)上架這樣一個(gè)能隨意授權(quán)調(diào)用其它應(yīng)用的App,并且R1就是奔著App去冗余來的,自然會(huì)淘汰這種形式。更重要的是,R1的通用解決方案可以與不同服務(wù)進(jìn)行交互,無論是網(wǎng)站、應(yīng)用程序還是其他平臺(tái),而這正是它的獨(dú)特之處。
另外的聲音還有,覺得Siri和谷歌助手很快也會(huì)實(shí)現(xiàn)這些功能,它到底能占有多少市場(chǎng)?“人們?yōu)槭裁葱枰粋€(gè)新設(shè)備去做原來設(shè)備已經(jīng)能做的事情呢?”話雖如此,這位網(wǎng)友還是表示,迫不及待看看R2會(huì)是什么樣。
這個(gè)問題Jesse坦言,Rabbit R1并不是要取代手機(jī),只是希望提供一種更快、更直接、更通用集成設(shè)備的途徑。畢竟基于App的交互界面已經(jīng)存在了超過15年,而AI驅(qū)動(dòng)的原生硬件才剛剛開始。
6、并不完美,回應(yīng)質(zhì)疑
Rabbit R1在云端運(yùn)行,不具備邊緣計(jì)算能力。同時(shí),大多數(shù)科技巨頭都在嘗試將LLMs引入邊緣計(jì)算領(lǐng)域,包括蘋果、谷歌和三星。
Jesse聲稱,使用Rabbit OS,他的響應(yīng)速度比大多數(shù)語音AI項(xiàng)目快10倍。“Rabbit在500毫秒內(nèi)回答我的問題?!比欢?,Hacker News上的一位用戶質(zhì)疑這一說法:“推理在哪里運(yùn)行?我不相信它在設(shè)備上。如果它在云端,那么為什么聲稱它低于500毫秒?”
Rabbit認(rèn)為,終端用戶手中的智能是可以在不需要強(qiáng)大的客戶端計(jì)算能力的情況下實(shí)現(xiàn)的。通過仔細(xì)且安全地將大部分計(jì)算工作負(fù)載卸載到數(shù)據(jù)中心,我們?yōu)樾阅芎统杀緝?yōu)化創(chuàng)造了機(jī)會(huì),使得尖端的交互式AI體驗(yàn)變得極其經(jīng)濟(jì)實(shí)惠。
雖然LAM在云端運(yùn)行,但與其交互的硬件設(shè)備不需要昂貴和笨重的處理器,對(duì)環(huán)境非常友好,并且功耗很小。隨著與LAM相關(guān)的工作負(fù)載不斷整合,我們?cè)O(shè)想了一條通向?qū)iT構(gòu)建的服務(wù)器端和邊緣芯片的道路。
7、寫在最后:一款不錯(cuò)的AI Agent
整體而言,對(duì)于Rabbit R1來說,魅力之處并不在于其硬件本身,它可能并不在最佳可用硬件之列。
但這是截止目前為止,讓我們看到AI Agent 發(fā)揮最大效用的一次不錯(cuò)嘗試,讓大家看到它能夠有效地采取行動(dòng),帶來價(jià)值。
正如Hacker News上的另一位用戶寫道:“我認(rèn)為硬件不是主要產(chǎn)品。我相信AI才是,但他們不想只是‘一個(gè)應(yīng)用程序’;他們的目標(biāo)是成為新型計(jì)算方式的第一個(gè)操作系統(tǒng)。因此,他們?cè)O(shè)計(jì)了一款新設(shè)備?!?/p>
值得一提的是,該產(chǎn)品的發(fā)布人,Jesse Lyu,其實(shí)在國(guó)內(nèi)互聯(lián)網(wǎng)創(chuàng)客圈內(nèi)可謂人人熟悉,作為明星智能硬件公司渡鴉的創(chuàng)始人,呂騁,當(dāng)年在大三時(shí)就創(chuàng)立了時(shí)間匹配的社交工具timeet,據(jù)說只用一分鐘就拿下了百萬融資。
2017年渡鴉被百度收購(gòu),26歲的呂騁加入百度出任智能家居硬件總經(jīng)理,而一手推動(dòng)完成這場(chǎng)收購(gòu)的正是當(dāng)時(shí)任百度集團(tuán)總裁和首席運(yùn)營(yíng)官的陸奇。
參考鏈接:
https://assets.lotofcarrots.com/media/research/rabbit-lam.mp4
https://www.theverge.com/2024/1/10/24033498/rabbit-r1-sold-out-ces-ai






































