蘋果研發(fā)多模態(tài)AI,這是研究人員迄今發(fā)現(xiàn)的結(jié)果
譯文譯者 | 布加迪
審校 | 重樓
如果我告訴你,在最近熱議的多模態(tài)AI背后,蘋果正在悄然醞釀一場革命,你會作何感想?蘋果的一群研究人員一直在系統(tǒng)地研究如何構(gòu)建功能最強大的多模態(tài)模型,揭露了質(zhì)疑傳統(tǒng)智慧的重要見解?,F(xiàn)在他們讓我們有機會一窺底層的細節(jié)。

他們的研究工作可能會改變我們對待多模態(tài)項目的視角。但要理解其中的原因,你需要搞清楚其研究方法和發(fā)現(xiàn)結(jié)果的細節(jié)。以下是本人對蘋果研究論文的解讀。
本人在這篇文章中將介紹以下內(nèi)容:
- 他們測試的架構(gòu)方面的具體取舍以及真正最重要的方面。
- 他們如何以一種非常有意識的方式混合數(shù)據(jù)來實現(xiàn)最先進的小樣本(few-shot)學(xué)習(xí)。
- 為什么他們的擴展定律和訓(xùn)練方法對于任何建立多模態(tài)模型的人都至關(guān)重要。
- 證明蘋果模型的出色功能的具體例子,從多圖像推理到OCR。
- 本人對這項研究工作的潛在影響所持的看法,以及它提出的一些開放性問題。
本文將給出嚴謹的技術(shù)解讀和通俗易懂的主旨概述。最后,你對這項開創(chuàng)性的研究以及它如何改變AI未來會有一番清晰的認識。
引言
多模態(tài)AI已經(jīng)取得了快速發(fā)展,Flamingo、EMu2和MoLLa等模型展示了結(jié)合視覺和語言理解的潛力。然而,許多這些模型并沒有深入地揭示其架構(gòu)選擇和訓(xùn)練過程背后的基本原理。
蘋果的MM1論文介紹了一系列多模態(tài)AI模型,深入解釋了如何構(gòu)建結(jié)合視覺和語言理解的高性能系統(tǒng)。通過廣泛的消融研究和系統(tǒng)實驗,該團隊發(fā)現(xiàn)了構(gòu)建高性能多模態(tài)模型方面的關(guān)鍵見解。他們的發(fā)現(xiàn)結(jié)果揭示了不同架構(gòu)選擇、數(shù)據(jù)混合策略和擴展方法的相對重要性。
通過分享最先進的小樣本學(xué)習(xí)的“配方”,論文作者們使更廣泛的研究社區(qū)能夠在他們的研究工作基礎(chǔ)上更有作為。從長遠來看,這里的開創(chuàng)性技術(shù)可以推動將視覺和語言理解深度整合的新一代基礎(chǔ)模型。
本人在本文中將逐步介紹論文的關(guān)鍵部分,涵蓋他們的方法、結(jié)果、討論和結(jié)論;也將解釋技術(shù)細節(jié),同時提供淺顯的解讀,主要圍繞主旨及其意義。在此過程中,本人將分享自己的分析,并著重介紹這項研究工作提出的一些開放式問題。
技術(shù)解釋
論文作者著手研究如何構(gòu)建高性能的多模態(tài)語言模型(MLLM)。他們系統(tǒng)地分析了兩個關(guān)鍵因素:1)架構(gòu)組件,比如圖像編碼器和視覺語言連接器;2)預(yù)訓(xùn)練中的數(shù)據(jù)選擇。
為了有效地評估設(shè)計方面的選擇,他們使用擁有12億參數(shù)LLM的基本配置。他們通過每次修改一個組件,面對VQA和字幕任務(wù)評估零樣本和小樣本性能的影響來進行消融。
就架構(gòu)而言,他們測試不同的預(yù)訓(xùn)練圖像編碼器(不同的目標、數(shù)據(jù)和分辨率)和視覺語言連接器。就視覺語言連接器而言,他們測試了平均池化、注意力池化和一個叫做C-Abstractor的卷積ResNet塊。令人驚訝的是,特定的連接器架構(gòu)對性能幾乎沒有影響。就預(yù)訓(xùn)練數(shù)據(jù)而言,他們結(jié)合使用帶字幕的圖像、交錯的圖像-文本文檔和純文本數(shù)據(jù)。
結(jié)果

圖1. MM1可以跨圖像執(zhí)行指令和推理。來自VILA的示例和圖像。在思維鏈的提示下,VILA正確回答
與Flamingo、IDEFICS、EMu2相比,最終的MM1系列可擴展至300億個參數(shù),在關(guān)鍵基準測試中獲得了SOTA小樣本測試結(jié)果。
至于架構(gòu)方面,研究人員發(fā)現(xiàn)(按重要性排序):
- 圖像分辨率具有最大的影響,從224px到336px有約3%的提升。
- 圖像編碼器大小和預(yù)訓(xùn)練數(shù)據(jù)也很重要,從ViT-L到ViT-H提升幅度小于1%。
- 視覺語言連接器設(shè)計選擇的影響可以忽略不計。
至于預(yù)訓(xùn)練數(shù)據(jù)方面:
- 交錯數(shù)據(jù)對于小樣本和純文本性能至關(guān)重要,可以提升10%以上。
- 字幕數(shù)據(jù)改善零樣本最明顯。
- 合成字幕幫助小樣本(+2-4%)。
- 仔細混合模態(tài)(5:5:1比例的字幕,交錯和文本)效果最好。
與Flamingo、IDEFICS、EMu2相比,最終的MM1模型可以擴展到300億參數(shù),在關(guān)鍵基準測試中獲得了SOTA小樣本結(jié)果。
論文作者證明了他們在監(jiān)督式微調(diào)(SFT)后獲得的訓(xùn)練前見解。MM1表現(xiàn)出令人信服的特性,比如多圖像推理、OCR和上下文小樣本學(xué)習(xí)。
有意架構(gòu)和數(shù)據(jù)選擇的MM1配方在擴展后帶來了高性能。論文作者希望這些見解能夠適用于具體實現(xiàn)之外的更廣泛環(huán)境。
淺顯的解釋
要點是,蘋果的研究人員做了一系列實驗,以查明構(gòu)建能理解圖像和文本的AI模型的最佳方法。
他們測試了不同的模型組件,比如編碼圖像的部分和連接圖像和文本的部分。他們發(fā)現(xiàn)有些方面很重要(圖像分辨率和編碼器大小/數(shù)據(jù)),而其他方面其實不重要(連接器設(shè)計)。
在訓(xùn)練模型時,他們還嘗試混合不同類型的數(shù)據(jù)。比如加有字幕的圖形、文本和圖片混合在一起的文檔以及純文本。關(guān)鍵似乎要有多樣性——這有助于模型處理不同的情況,比如描述圖像或回答問題。
當(dāng)他們把這一切結(jié)合在一起,使模型變得非常大(300億參數(shù))時,它最擅長從僅僅幾個例子中學(xué)習(xí)。它擁有一些出色的功能,比如針對多個圖像進行推理、讀取圖像中的文本,甚至解釋自己的輸出。
簡而言之,秘密武器是有意地處理模型組件和訓(xùn)練數(shù)據(jù)。通過分享這一秘訣,這些研究人員正在為新一代功能強大的多模態(tài)AI系統(tǒng)鋪平道路。
批判性分析
不妨考慮一下MM1研究工作的幾處注意事項和限制:
- 評估基準:論文作者特別指出,當(dāng)前的評估集以字幕為中心。為此優(yōu)化的模型可能無法推廣到其他多模態(tài)任務(wù)。我們需要更多樣化的基準。
- 擴展定律:將超參數(shù)外推到更大的規(guī)模有風(fēng)險。可能會出現(xiàn)小規(guī)模測試中并未出現(xiàn)的穩(wěn)定性問題。在訓(xùn)練大模型時,需要仔細監(jiān)控。
- 合成數(shù)據(jù):雖然合成字幕有幫助,但生成的數(shù)據(jù)有限制。過度優(yōu)化可能會導(dǎo)致奇怪的失效模式。使用須謹慎。
- 偏見/公平性:沒有分析輸出或訓(xùn)練數(shù)據(jù)中的社會偏見。為了負責(zé)任的部署,這需要仔細審查,尤其是針對從網(wǎng)上抓取的數(shù)據(jù)。
- 硬件訪問:消融使用了一個有12億參數(shù)的型號,但最終系統(tǒng)是300億參數(shù)。在算力有限的情況下,獲得的見解可能不太適用。我們還需要研究“小模型”設(shè)計。
論文作者確實承認有改進的余地,比如擴展視覺編碼器、改進視覺語言橋接和迭代評估套件。
除了研究人員承認的局限性外,本人認為關(guān)于MM1方法還有一些更深層次的問題值得討論。比如說,嚴重依賴從網(wǎng)上抓取的數(shù)據(jù)讓人們對訓(xùn)練集的代表性和潛在偏見引發(fā)擔(dān)憂。同樣值得考慮的是,這里確定的特定架構(gòu)選擇和擴展定律是否可以推廣到視覺和語言之外的其他模態(tài),或者擴大到更開放的生成式任務(wù)。在這個領(lǐng)域參與這些更廣泛的辯論將加強這項研究工作的影響。
結(jié)論
我們能從蘋果的MM1論文中學(xué)到什么呢?
首先,這篇論文為訓(xùn)練高性能的多模態(tài)模型提供了更清晰的路線圖。如果深思熟慮架構(gòu)和數(shù)據(jù)選擇,并認真擴展,我就能發(fā)掘出色的小樣本學(xué)習(xí)和推理能力。
其次,論文提出了該領(lǐng)域的關(guān)鍵的開放性問題。我們?nèi)绾谓⑷鏈y試多模態(tài)技能的基準?對于通用模型來說,數(shù)據(jù)模式和任務(wù)的正確組合是什么?在保持性能的情況下,我們又可以將模型尺寸做得多???
三是,論文為基礎(chǔ)多模態(tài)模型方面的開放研究確立了新標準。通過詳細介紹訓(xùn)練過程和釋放消融,作者使業(yè)界能夠復(fù)制和擴展他們的研究工作。這對加快整個行業(yè)的進展至關(guān)重要。
展望未來,MM1論文有望成為多模態(tài)AI研究領(lǐng)域的一塊重要里程碑。通過為模型設(shè)計和訓(xùn)練提供嚴謹的經(jīng)驗基礎(chǔ),論文為該領(lǐng)域的未來發(fā)展奠定了基礎(chǔ)。雖然它是否會帶來類似于GPT-4的變革性影響還有待觀察,但本文給人的見解可以指導(dǎo)研究人員繼續(xù)推動多模態(tài)系統(tǒng)的最高性能。當(dāng)然,實現(xiàn)這個潛力將需要持續(xù)的努力來利用和擴展這些發(fā)現(xiàn)結(jié)果,同時也竭力解決上面強調(diào)的局限性和開放性問題。
就本人而言,我很期待看到這方面會帶來怎樣的發(fā)展。
原文標題:Apple is working on multimodal AI. Here's what they've uncovered so far,作者:Mike Young

























