蘋果在AI領域取得重大進展,圖像生成技術可與DALL-E和Midjourney相媲美
蘋果公司的機器學習研究團隊開發(fā)出了一種突破性的AI系統(tǒng),該系統(tǒng)能夠生成高分辨率圖像,可能對以DALL-E和Midjourney等流行圖像生成器所依賴的擴散模型的主導地位構成挑戰(zhàn)。
這項在上周發(fā)表的研究論文中詳細介紹的技術名為“STARFlow”,是由蘋果研究人員與學術合作伙伴共同開發(fā)的,該系統(tǒng)結合了標準化流(normalizing flows)與自回歸Transformer,實現(xiàn)了研究團隊所稱的“與最先進的擴散模型相比具有競爭力”的性能。
這一突破發(fā)生在蘋果面臨AI領域批評聲浪日益高漲的關鍵時刻。在周一的全球開發(fā)者大會上,該公司僅對其Apple Intelligence平臺進行了適度的AI更新,凸顯了這家被許多人視為在AI軍備競賽中落后了的公司所面臨的競爭壓力。
“據(jù)我們所知,這項工作是首次成功展示標準化流能夠在此規(guī)模和分辨率下有效運作,”研究團隊寫道,該團隊包括蘋果機器學習研究人員紀濤顧(Jiatao Gu)、約書亞·M·蘇斯金德(Joshua M. Susskind)和翟雙飛(Shuangfei Zhai),以及來自加州大學伯克利分校和佐治亞理工學院等機構的學術合作者。
蘋果如何在AI大戰(zhàn)中反擊OpenAI和谷歌
STARFlow研究代表了蘋果為開發(fā)獨特AI能力所做的更廣泛努力,這些能力可能使其產(chǎn)品與競爭對手區(qū)分開來。雖然谷歌和OpenAI等公司憑借其生成式AI的進步占據(jù)了頭條新聞,但蘋果一直在探索可能提供獨特優(yōu)勢的替代方法。
研究團隊解決了AI圖像生成中的一個基本挑戰(zhàn):將標準化流擴展到能夠有效處理高分辨率圖像的程度。標準化流是一種生成模型,它學習將簡單分布轉換為復雜分布,但在圖像合成應用中傳統(tǒng)上被擴散模型和生成對抗網(wǎng)絡所掩蓋。
“STARFlow在類別條件圖像生成和文本條件圖像生成任務中均取得了具有競爭力的性能,樣本質量接近最先進的擴散模型,”研究人員寫道,展示了該系統(tǒng)在不同類型圖像合成挑戰(zhàn)中的多功能性。
蘋果新AI系統(tǒng)背后的數(shù)學突破
蘋果的研究團隊引入了幾項關鍵創(chuàng)新,以克服現(xiàn)有標準化流方法的局限性,該系統(tǒng)采用了研究人員所說的“深-淺設計”,使用“一個深度Transformer塊[它]捕獲了模型的大部分表示能力,輔以幾個計算效率高且顯著有益的淺Transformer塊”。
這一突破還涉及在預訓練自編碼器的潛在空間中操作,這比直接像素級建模更有效。根據(jù)論文,這種方法允許模型使用圖像的壓縮表示而不是原始像素數(shù)據(jù)進行工作,顯著提高了效率。
與依賴迭代去噪過程的擴散模型不同,STARFlow保持了標準化流的數(shù)學性質,能夠在連續(xù)空間中進行精確的最大似然訓練,而無需離散化。
STARFlow對蘋果未來iPhone和Mac產(chǎn)品的意義
這項研究在蘋果面臨展示AI領域有意義進展的日益增加的壓力之際出現(xiàn)。最近的一項彭博社分析強調了Apple Intelligence和Siri在與競爭對手競爭中的掙扎。蘋果在本周的全球開發(fā)者大會上的適度宣布凸顯了該公司在AI領域的挑戰(zhàn)。
對于蘋果而言,STARFlow的精確似然訓練可能在需要精確控制生成內容或在理解模型不確定性對于決策至關重要的應用中提供優(yōu)勢——這可能對企業(yè)應用和蘋果強調的設備上AI能力有價值。
這項研究證明了替代擴散模型的方法可以達到類似的結果,可能為創(chuàng)新開辟新的途徑,這些途徑可以發(fā)揮蘋果在軟硬件集成和設備上處理方面的優(yōu)勢。
為什么蘋果押注于大學合作來解決其AI問題
這項研究體現(xiàn)了蘋果與領先學術機構合作以提升其AI能力的戰(zhàn)略。共同作者陳天榮(Tianrong Chen)是佐治亞理工學院的博士生,曾在蘋果機器學習研究團隊實習,他在隨機最優(yōu)控制和生成建模方面擁有專業(yè)知識。
該合作還包括加州大學伯克利分校數(shù)學系的張瑞祥(Ruixiang Zhang)和谷歌大腦(Google Brain)和DeepMind的機器學習研究員洛朗·丁(Laurent Dinh),后者以在流模型方面的開創(chuàng)性工作而聞名。
“重要的是,我們的模型仍然是一個端到端的標準化流模型,”研究人員強調,將他們的方法與犧牲數(shù)學可處理性以換取性能提升的混合方法區(qū)分開來。
完整的研究論文可在arXiv上找到,為希望在競爭激烈的生成式AI領域中構建此工作的研究人員和工程師提供了技術細節(jié)。雖然STARFlow代表了顯著的技術成就,但真正的考驗將是蘋果能否將此類研究突破轉化為消費者喜愛的AI功能,這些功能已使ChatGPT等競爭對手家喻戶曉。對于一家曾憑借iPhone等產(chǎn)品革新整個行業(yè)的公司而言,問題不在于蘋果能否在AI領域創(chuàng)新,而在于其能否足夠快地實現(xiàn)這一目標。