蘋果在AI領(lǐng)域取得重大進(jìn)展,圖像生成技術(shù)可與DALL-E和Midjourney相媲美

蘋果公司的機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)開發(fā)出了一種突破性的AI系統(tǒng),該系統(tǒng)能夠生成高分辨率圖像,可能對以DALL-E和Midjourney等流行圖像生成器所依賴的擴(kuò)散模型的主導(dǎo)地位構(gòu)成挑戰(zhàn)。
這項(xiàng)在上周發(fā)表的研究論文中詳細(xì)介紹的技術(shù)名為“STARFlow”,是由蘋果研究人員與學(xué)術(shù)合作伙伴共同開發(fā)的,該系統(tǒng)結(jié)合了標(biāo)準(zhǔn)化流(normalizing flows)與自回歸Transformer,實(shí)現(xiàn)了研究團(tuán)隊(duì)所稱的“與最先進(jìn)的擴(kuò)散模型相比具有競爭力”的性能。
這一突破發(fā)生在蘋果面臨AI領(lǐng)域批評聲浪日益高漲的關(guān)鍵時刻。在周一的全球開發(fā)者大會上,該公司僅對其Apple Intelligence平臺進(jìn)行了適度的AI更新,凸顯了這家被許多人視為在AI軍備競賽中落后了的公司所面臨的競爭壓力。
“據(jù)我們所知,這項(xiàng)工作是首次成功展示標(biāo)準(zhǔn)化流能夠在此規(guī)模和分辨率下有效運(yùn)作,”研究團(tuán)隊(duì)寫道,該團(tuán)隊(duì)包括蘋果機(jī)器學(xué)習(xí)研究人員紀(jì)濤顧(Jiatao Gu)、約書亞·M·蘇斯金德(Joshua M. Susskind)和翟雙飛(Shuangfei Zhai),以及來自加州大學(xué)伯克利分校和佐治亞理工學(xué)院等機(jī)構(gòu)的學(xué)術(shù)合作者。
蘋果如何在AI大戰(zhàn)中反擊OpenAI和谷歌
STARFlow研究代表了蘋果為開發(fā)獨(dú)特AI能力所做的更廣泛努力,這些能力可能使其產(chǎn)品與競爭對手區(qū)分開來。雖然谷歌和OpenAI等公司憑借其生成式AI的進(jìn)步占據(jù)了頭條新聞,但蘋果一直在探索可能提供獨(dú)特優(yōu)勢的替代方法。
研究團(tuán)隊(duì)解決了AI圖像生成中的一個基本挑戰(zhàn):將標(biāo)準(zhǔn)化流擴(kuò)展到能夠有效處理高分辨率圖像的程度。標(biāo)準(zhǔn)化流是一種生成模型,它學(xué)習(xí)將簡單分布轉(zhuǎn)換為復(fù)雜分布,但在圖像合成應(yīng)用中傳統(tǒng)上被擴(kuò)散模型和生成對抗網(wǎng)絡(luò)所掩蓋。
“STARFlow在類別條件圖像生成和文本條件圖像生成任務(wù)中均取得了具有競爭力的性能,樣本質(zhì)量接近最先進(jìn)的擴(kuò)散模型,”研究人員寫道,展示了該系統(tǒng)在不同類型圖像合成挑戰(zhàn)中的多功能性。
蘋果新AI系統(tǒng)背后的數(shù)學(xué)突破
蘋果的研究團(tuán)隊(duì)引入了幾項(xiàng)關(guān)鍵創(chuàng)新,以克服現(xiàn)有標(biāo)準(zhǔn)化流方法的局限性,該系統(tǒng)采用了研究人員所說的“深-淺設(shè)計(jì)”,使用“一個深度Transformer塊[它]捕獲了模型的大部分表示能力,輔以幾個計(jì)算效率高且顯著有益的淺Transformer塊”。
這一突破還涉及在預(yù)訓(xùn)練自編碼器的潛在空間中操作,這比直接像素級建模更有效。根據(jù)論文,這種方法允許模型使用圖像的壓縮表示而不是原始像素?cái)?shù)據(jù)進(jìn)行工作,顯著提高了效率。
與依賴迭代去噪過程的擴(kuò)散模型不同,STARFlow保持了標(biāo)準(zhǔn)化流的數(shù)學(xué)性質(zhì),能夠在連續(xù)空間中進(jìn)行精確的最大似然訓(xùn)練,而無需離散化。
STARFlow對蘋果未來iPhone和Mac產(chǎn)品的意義
這項(xiàng)研究在蘋果面臨展示AI領(lǐng)域有意義進(jìn)展的日益增加的壓力之際出現(xiàn)。最近的一項(xiàng)彭博社分析強(qiáng)調(diào)了Apple Intelligence和Siri在與競爭對手競爭中的掙扎。蘋果在本周的全球開發(fā)者大會上的適度宣布凸顯了該公司在AI領(lǐng)域的挑戰(zhàn)。
對于蘋果而言,STARFlow的精確似然訓(xùn)練可能在需要精確控制生成內(nèi)容或在理解模型不確定性對于決策至關(guān)重要的應(yīng)用中提供優(yōu)勢——這可能對企業(yè)應(yīng)用和蘋果強(qiáng)調(diào)的設(shè)備上AI能力有價值。
這項(xiàng)研究證明了替代擴(kuò)散模型的方法可以達(dá)到類似的結(jié)果,可能為創(chuàng)新開辟新的途徑,這些途徑可以發(fā)揮蘋果在軟硬件集成和設(shè)備上處理方面的優(yōu)勢。
為什么蘋果押注于大學(xué)合作來解決其AI問題
這項(xiàng)研究體現(xiàn)了蘋果與領(lǐng)先學(xué)術(shù)機(jī)構(gòu)合作以提升其AI能力的戰(zhàn)略。共同作者陳天榮(Tianrong Chen)是佐治亞理工學(xué)院的博士生,曾在蘋果機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)實(shí)習(xí),他在隨機(jī)最優(yōu)控制和生成建模方面擁有專業(yè)知識。
該合作還包括加州大學(xué)伯克利分校數(shù)學(xué)系的張瑞祥(Ruixiang Zhang)和谷歌大腦(Google Brain)和DeepMind的機(jī)器學(xué)習(xí)研究員洛朗·丁(Laurent Dinh),后者以在流模型方面的開創(chuàng)性工作而聞名。
“重要的是,我們的模型仍然是一個端到端的標(biāo)準(zhǔn)化流模型,”研究人員強(qiáng)調(diào),將他們的方法與犧牲數(shù)學(xué)可處理性以換取性能提升的混合方法區(qū)分開來。
完整的研究論文可在arXiv上找到,為希望在競爭激烈的生成式AI領(lǐng)域中構(gòu)建此工作的研究人員和工程師提供了技術(shù)細(xì)節(jié)。雖然STARFlow代表了顯著的技術(shù)成就,但真正的考驗(yàn)將是蘋果能否將此類研究突破轉(zhuǎn)化為消費(fèi)者喜愛的AI功能,這些功能已使ChatGPT等競爭對手家喻戶曉。對于一家曾憑借iPhone等產(chǎn)品革新整個行業(yè)的公司而言,問題不在于蘋果能否在AI領(lǐng)域創(chuàng)新,而在于其能否足夠快地實(shí)現(xiàn)這一目標(biāo)。




























