80M參數(shù)打平GPT-4!蘋果發(fā)超強(qiáng)上下文理解模型,聰明版Siri馬上就來
會讀心的Siri想不想要?
今天,蘋果發(fā)布了自家的最新模型ReALM,僅需80M參數(shù),就能在上下文理解能力上打平甚至超越GPT-4!
論文地址:https://arxiv.org/pdf/2403.20329.pdf
ReALM可以將任何形式的上下文轉(zhuǎn)換為文本來進(jìn)行理解,比如解析屏幕、多輪對話、以及上下文中的引用。
在此基礎(chǔ)上,用戶正在關(guān)注什么,甚至是想些什么,都逃不過AI的法眼。
有了這個(gè)技術(shù),你的Siri會反應(yīng)更快,而且更加智能。
比如你讓Siri推薦一些披薩店,在看到列表后,你可能希望選擇其中一個(gè),打電話叫個(gè)外賣。
以前憨憨的Siri并不能執(zhí)行后面這個(gè)操作,但有了ReALM之后,就可以通過分析設(shè)備數(shù)據(jù)等操作,理解你的指示。
在幾項(xiàng)相關(guān)基準(zhǔn)測試中,ReALM的性能表現(xiàn)非常亮眼,連最小的80M參數(shù)模型也能媲美GPT-4,而更大的模型分?jǐn)?shù)則更高。
模糊指令
讓AI模型根據(jù)模糊的語言指令(比如「這個(gè)」、「那個(gè)」),來執(zhí)行任務(wù)是一個(gè)相當(dāng)復(fù)雜的問題。
不過,看起來蘋果已經(jīng)找到了方法,讓AI模型能夠綜合各種模態(tài)、各種維度的信息,像人類一樣思考和工作。
人類在交談時(shí),會聯(lián)系到相當(dāng)多的信息,——玩手機(jī)時(shí)也一樣(比如后臺任務(wù)、其他界面的顯示、非對話實(shí)體)。
傳統(tǒng)的模型很難理解這么復(fù)雜的參考信息,而蘋果通過將所有內(nèi)容轉(zhuǎn)換為文本來簡化了這個(gè)問題。
下面是一個(gè)對話場景轉(zhuǎn)換為文本的例子:
在這方面,即使是ReALM最小的模型都表現(xiàn)得足夠好(GPT-4級別),而且僅僅80M的參數(shù)非常適合在終端設(shè)備上使用。
——做更適合iPhone等設(shè)備的智能,這顯然是蘋果想要開辟的道路。
以解析屏幕為例,GPT-4等模型依賴圖像識別,背后是基于大量圖像訓(xùn)練數(shù)據(jù)而產(chǎn)生的大量參數(shù)。
而ReALM選擇將圖像轉(zhuǎn)換為文本,節(jié)省了高級圖像識別所需的參數(shù),從而變得更小、更高效。
此外,蘋果還通過限制解碼、使用簡單的后處理等方法來避免幻覺問題。
近期,蘋果的人工智能研究不斷發(fā)表,而6月將要召開的WWDC,會讓我們看到蘋果更多面向未來的布局。
論文細(xì)節(jié)
首先給出一圖流總結(jié):
數(shù)據(jù)集
論文使用的數(shù)據(jù)集由合成數(shù)據(jù),以及在注釋者幫助下創(chuàng)建的數(shù)據(jù)組成。
每個(gè)數(shù)據(jù)點(diǎn)都包含用戶查詢和實(shí)體列表,以及與相應(yīng)用戶查詢相關(guān)的真值實(shí)體(或?qū)嶓w集)。
反過來,每個(gè)實(shí)體又包含有關(guān)其類型和其他屬性的信息,如名稱和與實(shí)體相關(guān)的其他文本細(xì)節(jié)(如警報(bào)的標(biāo)簽和時(shí)間)。
對于存在相關(guān)屏幕上下文的數(shù)據(jù)點(diǎn),上下文的形式包括實(shí)體的邊界框、實(shí)體周圍的對象列表以及這些周圍對象的屬性(如類型、文本內(nèi)容和位置)。
下表給出了訓(xùn)練集和測試集的情況:
會話數(shù)據(jù)
在這種情況下,將收集用戶與代理交互相關(guān)的實(shí)體的數(shù)據(jù)。
為此,會向測評員展示帶有綜合實(shí)體列表的屏幕截圖,并要求測評員提供能明確引用綜合列表中任意挑選的實(shí)體的查詢。
例如,可能會向測評員提供企業(yè)或警報(bào)的綜合列表,并要求他們引用該列表中的特定實(shí)體。
例如,可能會向測評員顯示一個(gè)綜合構(gòu)建的企業(yè)列表,然后讓他們引用所提供的列表中的特定企業(yè)。
例如,他們可能會說「帶我去倒數(shù)第二的那個(gè)」或「打電話給主街上的那個(gè)」。
合成數(shù)據(jù)
另一種獲取數(shù)據(jù)的方法是依靠模板合成數(shù)據(jù)。
這種方法對基于類型的引用特別有用,因?yàn)橛脩舨樵兒蛯?shí)體類型足以解析引用,而不需要依賴描述。
需要注意的是,此數(shù)據(jù)集的合成性質(zhì)并不排除它包含可以將多個(gè)實(shí)體解析為給定引用的數(shù)據(jù)點(diǎn):例如,對于查詢「play it」,「it」可以解析為「音樂」和「視頻」類型的所有實(shí)體。
有兩個(gè)模板可以生成合成數(shù)據(jù)。第一個(gè)「基礎(chǔ)」模板包括引用、實(shí)體和必要時(shí)可能的槽值(slot values)。
第二個(gè)「語言」模板導(dǎo)入了基礎(chǔ)模板,并添加了不同的查詢變量,這些查詢可用于基礎(chǔ)模板中定義的引用的目標(biāo)案例。
數(shù)據(jù)生成腳本采用基礎(chǔ)模板和語言模板,并通過用基礎(chǔ)模板中定義的提及和槽值替換引用,生成語言模板中給出的可能查詢。
它遍歷所有受支持的實(shí)體。對于與模板中的實(shí)體匹配的實(shí)體類型,它會連接引用和實(shí)體,否則它只會添加沒有引用的實(shí)體類型。
屏幕數(shù)據(jù)
屏幕數(shù)據(jù)是從存在電話號碼、電子郵件或者實(shí)際地址信息的各種網(wǎng)頁中收集的。
論文對屏幕數(shù)據(jù)進(jìn)行了兩個(gè)階段的注釋處理。
第一階段是根據(jù)屏幕提取查詢,第二階段是識別給定查詢的實(shí)體和提及。
在第一個(gè)分級項(xiàng)目中,測評員會得到一張帶有綠色和紅色方框的屏幕截圖(圖 1a),以及綠色框中包含的信息,并要求他們將綠色方框中的數(shù)據(jù)歸類為其中一個(gè)實(shí)體,如電話號碼、電子郵件地址等。
然后,要求測評員對綠框中的數(shù)據(jù)提供三個(gè)唯一的查詢結(jié)果。
在第二個(gè)注釋項(xiàng)目(圖1b)中,將第一步收集到的查詢以列表形式逐一展示給評分員,并附帶相應(yīng)的屏幕截圖(無邊界框)和所有屏幕實(shí)體。
測評員被問及該查詢是否提到了給定的視覺實(shí)體之一,查詢是否聽起來自然。此外,他們還被要求提供所給查詢中提及的列表實(shí)體,并標(biāo)記查詢中提及該實(shí)體的部分。
模型
基線
論文將其提出的模型ReALM與兩種基線方法進(jìn)行了比較:一種是基于MARRS中提出的參考解析器的重新實(shí)現(xiàn)(這種方法不使用LLM);另一種是基于ChatGPT。
研究方法
在論文的具體實(shí)施中使用以下流程對LLM(FLAN-T5模型)進(jìn)行微調(diào)。
將解析后的輸入提供給模型,并對其進(jìn)行微調(diào)。
需要注意的是,與基線不同,論文沒有在FLAN-T5模型上運(yùn)行廣泛的超參數(shù)搜索,而是堅(jiān)持使用默認(rèn)的微調(diào)參數(shù)。
對于由用戶查詢和相應(yīng)實(shí)體組成的每個(gè)數(shù)據(jù)點(diǎn),我們都會將其轉(zhuǎn)換為句子格式,以便提供給LLM進(jìn)行訓(xùn)練。
會話引用
為了完成這項(xiàng)工作,論文假設(shè)會話引用有兩種類型:基于類型的引用和描述性引用。
基于類型的引用在很大程度上依賴于將用戶查詢與實(shí)體類型結(jié)合使用,以確定哪個(gè)實(shí)體(一組實(shí)體中的哪一個(gè))與相關(guān)的用戶查詢最相關(guān):
例如,如果用戶說「play this」,我們就知道他們指的是一首歌或一部電影這樣的實(shí)體,而不是電話號碼或地址;「call him」同樣指的是一組電話號碼或聯(lián)系人中的第一個(gè),而不是警報(bào)器。
相比之下,描述性引用傾向于使用實(shí)體的某個(gè)屬性來唯一標(biāo)識它:例如,「The one in Times Square」可能是指一組地址或企業(yè)中的一家。
需要注意的是,通常情況下,引用可能同時(shí)依賴于類型和描述來明確指代一個(gè)對象:考慮示例「play the one from Abbey Road」與「directions to the one on Abbey Road」,這兩種情況都依賴于實(shí)體類型和描述,來識別第一種情況下的歌曲,以及第二種情況下的地址。
在論文提出的方法中,簡單地對實(shí)體的類型和各種屬性進(jìn)行編碼。
解析屏幕
對于屏幕上的引用,先假設(shè)存在能夠解析屏幕文本以提取實(shí)體的上游數(shù)據(jù)檢測器。
然后,獲得這些實(shí)體的類型、邊界框和相關(guān)的非實(shí)體文本元素列表。
使用下面給出的算法,將這些實(shí)體(以及屏幕的相關(guān)部分)以僅涉及文本的方式編碼到模型中:
研究人員假設(shè)所有實(shí)體及其周圍對象的位置都可以通過各自邊界框的中心來表示。
然后先從上到下(垂直,沿y軸)對這些中心(以及相關(guān)對象)進(jìn)行排序,并在保持穩(wěn)定的情況下,從左到右(水平,沿x軸)排序。
接下來,邊距內(nèi)的所有對象都被視為在同一行上,并用制表符彼此分隔,邊距外更下方的對象被放置在下一行。
重復(fù)進(jìn)行上面的操作,就可以有效地將屏幕信息從左到右、從上到下編碼為純文本。
實(shí)驗(yàn)結(jié)果
下表展示了ReALM和其他SOTA模型PK的結(jié)果:
總體而言,ReALM在所有類型的數(shù)據(jù)集中都優(yōu)于MARRS模型,并且干掉了參數(shù)量大幾個(gè)數(shù)量級的GPT-3.5。
在屏幕相關(guān)的數(shù)據(jù)集上,ReALM采用的文本編碼方法能夠表現(xiàn)得幾乎與GPT-4(采用屏幕截圖)一樣好。
最后,研究人員嘗試了不同尺寸的模型??梢钥吹剑S著模型大小的增加,所有數(shù)據(jù)集的性能都有所提高,而屏幕相關(guān)數(shù)據(jù)集的差異最為明顯,因?yàn)檫@項(xiàng)任務(wù)在本質(zhì)上更加復(fù)雜。