偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs

人工智能
為任務(wù)選擇正確的GenAI模型需要了解每個模型使用的技術(shù)及其特定能力,下面請了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。

為任務(wù)選擇正確的GenAI模型需要了解每個模型使用的技術(shù)及其特定能力,下面請了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。

以前,大多數(shù)人工智能模型都專注于更好地處理、分析和解釋數(shù)據(jù)。直到最近,在所謂的生成神經(jīng)網(wǎng)絡(luò)模型方面的突破帶來了一系列用于創(chuàng)建各種內(nèi)容的新工具,從照片和繪畫到詩歌、代碼、電影劇本和電影。

頂級 AI 生成模型概述

研究人員在 2010 年代中期發(fā)現(xiàn)了新的生成 AI 模型的前景,當(dāng)時開發(fā)了變分自編碼器(VAEs)、生成對抗網(wǎng)絡(luò)(GAN) 和擴散模型(Diffusion)。2017年問世的轉(zhuǎn)換器(Transformers)是一種突破性的神經(jīng)網(wǎng)絡(luò),可以大規(guī)模分析大型數(shù)據(jù)集以自動創(chuàng)建大型語言模型(LLM)。2020 年,研究人員引入了神經(jīng)輻射場 (NeRF),這是一種從 3D 圖像生成 2D 內(nèi)容的技術(shù)。

這些快速發(fā)展的生成模型是一項正在進行的工作,因為研究人員所做的調(diào)整通常會導(dǎo)致巨大的進步,而且顯著的進展并沒有放緩。“模型架構(gòu)在不斷變化,新的模型架構(gòu)將繼續(xù)開發(fā),”在加州大學(xué)伯克利分校任教的懷特說。

每個模型都有其特殊的能力,目前,擴散模型(Diffusion)在圖像和視頻合成領(lǐng)域表現(xiàn)異常出色,轉(zhuǎn)換器模型(Transformers)在文本領(lǐng)域表現(xiàn)良好,GAN 擅長用合理的合成樣本來擴充小數(shù)據(jù)集。但是選擇最佳模型始終取決于特定的用例。

所有的模型都不相同,人工智能研究人員和ML(機器學(xué)習(xí))工程師必須為適當(dāng)?shù)挠美退璧男阅苓x擇合適的一個,并考慮模型在計算、內(nèi)存和資本方面可能存在的限制。

特別是轉(zhuǎn)換器模型,推動了生成模型的最新進展和興奮。“人工智能模型的最新突破來自對大量數(shù)據(jù)的預(yù)訓(xùn)練模型,以及使用自我監(jiān)督學(xué)習(xí)來訓(xùn)練沒有明確標簽的模型,”數(shù)字化轉(zhuǎn)型咨詢公司UST的首席人工智能架構(gòu)師Adnan Masood說。

例如,OpenAI的生成式預(yù)訓(xùn)練轉(zhuǎn)換器系列模型是該類別中最大,最強大的模型之一,比如模型之一GPT-3包含175億個參數(shù)。

頂級生成式 AI 模型的主要應(yīng)用

Masood解釋說,頂級生成AI模型使用不同的技術(shù)和方法來生成新數(shù)據(jù)。主要功能和用途包括:

  • VAE使用編碼器-解碼器架構(gòu)來生成新數(shù)據(jù),通常用于圖像和視頻生成,例如生成用于隱私保護的合成人臉。
  • GAN 使用生成器和鑒別器來生成新數(shù)據(jù),通常用于視頻游戲開發(fā)中以創(chuàng)建逼真的游戲角色。
  • Diffusion添加然后消除噪聲以生成具有高細節(jié)水平的高質(zhì)量圖像,從而創(chuàng)建近乎逼真的自然場景圖像。
  • Transformer可以有效地并行處理順序數(shù)據(jù),以進行機器翻譯、文本摘要和圖像創(chuàng)建。
  • NeRF提供了一種使用神經(jīng)表示的3D場景重建的新方法。

下面讓我們更詳細地介紹每種方法。

VAE

VAE于2014年開發(fā),旨在使用神經(jīng)網(wǎng)絡(luò)更有效地編碼數(shù)據(jù)。

人工智能分析平臺Sisense的AI負責(zé)人Yael Lev表示,VAE學(xué)會更有效地表示信息。它們由兩部分組成:一個編碼器(encoder),使數(shù)據(jù)更小,另一個解碼器(decoder),使數(shù)據(jù)恢復(fù)到原始形式。它們非常適合從較小的信息中創(chuàng)建新示例,修復(fù)嘈雜的圖像或數(shù)據(jù),在數(shù)據(jù)中發(fā)現(xiàn)異常內(nèi)容并填充缺失的信息。

然而,VAE也傾向于產(chǎn)生模糊或低質(zhì)量的圖像,UST的Masood說。另一個問題是,潛在空間(用于捕獲數(shù)據(jù)結(jié)構(gòu)的低維空間)錯綜復(fù)雜且具有挑戰(zhàn)性。這些弱點可能會限制VAE在高質(zhì)量圖像或?qū)撛诳臻g的清晰理解至關(guān)重要的應(yīng)用中的有效性。VAE的下一次迭代可能會側(cè)重于提高生成數(shù)據(jù)的質(zhì)量,提高訓(xùn)練速度并探索其對順序數(shù)據(jù)的適用性。

GANs

GANs于2014年開發(fā),用于生成逼真的面部和打印數(shù)字。GAN 將創(chuàng)建真實內(nèi)容的生成神經(jīng)網(wǎng)絡(luò)與用于檢測虛假內(nèi)容的判別神經(jīng)網(wǎng)絡(luò)對立起來?!爸鸩降?,兩個網(wǎng)絡(luò)融合產(chǎn)生與原始數(shù)據(jù)無法區(qū)分的生成圖像”普華永道全球人工智能負責(zé)人Anand Rao說。

GAN 通常用于圖像生成、圖像編輯、超分辨率、數(shù)據(jù)增強、風(fēng)格傳輸、音樂生成和深度偽造創(chuàng)建。GAN的一個問題是,它們可能會遭受模式崩潰,其中生成器產(chǎn)生有限和重復(fù)的輸出,使它們難以訓(xùn)練。Masood說,下一代GAN將專注于提高訓(xùn)練過程的穩(wěn)定性和融合性,將其適用性擴展到其他領(lǐng)域,并開發(fā)更有效的評估指標。GAN也很難優(yōu)化和穩(wěn)定,并且對生成的樣本沒有明確的控制。

Diffusion

擴散模型由斯坦福大學(xué)的一組研究人員于2015年開發(fā),用于模擬和反轉(zhuǎn)熵和噪聲。擴散技術(shù)提供了一種模擬現(xiàn)象的方法,例如鹽等物質(zhì)如何擴散到液體中,然后逆轉(zhuǎn)它,此相同模型還有助于從空白圖像生成新內(nèi)容。

擴散模型是當(dāng)前圖像生成的首選,它們是流行的圖像生成服務(wù)的基本模型,例如Dall-E 2,Stable Diffusion,Midjourney和Imagen。它們還用于管道中生成語音、視頻和 3D 內(nèi)容。此外,擴散技術(shù)還可用于數(shù)據(jù)插補,其中預(yù)測和生成缺失數(shù)據(jù)。

許多應(yīng)用將擴散模型與LLM配對,用于文本到圖像或文本到視頻生成。例如,Stable Diffusion 2 使用對比語言-圖像預(yù)訓(xùn)練模型作為文本編碼器,它還添加了用于深度和升級的模型。

Masood預(yù)測,對穩(wěn)定擴散等模型的進一步改進可能側(cè)重于改進負面提示,增強以特定藝術(shù)家風(fēng)格生成圖像的能力,并改善名人圖像。

Transformers

轉(zhuǎn)換器模型是由Google Brain的一個團隊于2017年開發(fā)的,旨在改善語言翻譯,它們非常適合以與給定順序不同的順序處理信息,并行處理數(shù)據(jù)并使用未標記的數(shù)據(jù)擴展到大型模型。

它們可用于文本摘要、聊天機器人、推薦引擎、語言翻譯、知識庫、超個性化(通過偏好模型)、情感分析和命名實體識別,以識別人、地點和事物。它們還可用于語音識別,如OpenAI的耳語,視頻和圖像中的對象檢測,圖像字幕,文本分類活動和對話生成。

盡管Transformers具有多功能性,但它們確實存在局限性。它們的訓(xùn)練成本可能很高,并且需要大型數(shù)據(jù)集。由此產(chǎn)生的模型也相當(dāng)大,這使得識別偏差或不準確結(jié)果的來源變得具有挑戰(zhàn)性。馬蘇德說:“它們的復(fù)雜性也使得解釋其內(nèi)部運作變得困難,阻礙了它們的可解釋性和透明度。

Transformer模型架構(gòu)Transformer模型架構(gòu)

NeRF

NeRF 于 2020 年開發(fā),用于將光場的 3D 表示捕獲到神經(jīng)網(wǎng)絡(luò)中,第一次實施非常緩慢,需要幾天時間才能捕獲第一個3D圖像。

然而,在 2022 年,英偉達的研究人員找到了一種在大約 30 秒內(nèi)生成新模型的方法。這些模型可以表示3D對象 - 具有相當(dāng)?shù)馁|(zhì)量 - 以幾兆字節(jié)為單位,而其他技術(shù)可以占用千兆字節(jié)。它們有希望能夠帶來更有效的技術(shù)來捕獲和生成元宇宙中的 3D 對象。英偉達研究總監(jiān)亞歷山大·凱勒(Alexander Keller)說,NeRFs“最終可能對3D圖形的重要性與數(shù)碼相機對現(xiàn)代攝影的重要性一樣重要。

Masood說,NeRF在機器人,城市測繪,自主導(dǎo)航和虛擬現(xiàn)實應(yīng)用方面也顯示出巨大的潛力。然而,NERF的計算成本仍然很高,將多個 NERF 組合成更大的場景也很具有挑戰(zhàn)性,今天NeRF唯一可行的用例是將圖像轉(zhuǎn)換為3D對象或場景。盡管存在這些限制,Masood預(yù)測NeRF將在基本圖像處理任務(wù)中找到新的角色,例如去噪,去模糊,上采樣,壓縮和圖像編輯。

GenAI生態(tài)系統(tǒng)進行時

重要的是要注意,這些模型正在進行中,研究人員正在尋求改進單個模型以及將它們與其他模型和處理技術(shù)相結(jié)合的方法。Lev預(yù)測,生成模型將變得更加通用,應(yīng)用程序?qū)U展到傳統(tǒng)領(lǐng)域之外,用戶還可以更有效地指導(dǎo)AI模型,并了解它們?nèi)绾胃玫毓ぷ鳌?/span>

在多模態(tài)模型上也有工作正在進行中,這些模型使用檢索方法來調(diào)用針對特定任務(wù)優(yōu)化的模型庫。他還希望生成模型能夠開發(fā)其他功能,例如進行API調(diào)用和使用外部工具,例如,根據(jù)公司的呼叫中心知識微調(diào)的LLM將提供問題的答案并執(zhí)行故障排除,例如重置客戶調(diào)制解調(diào)器或在問題解決時發(fā)送電子郵件。

事實上,今天流行的模型架構(gòu)最終可能會在未來被更高效的東西所取代?!爱?dāng)新架構(gòu)出現(xiàn)時,也許Diffusion和Transformer模型將不再有用,”懷特說。我們在Diffusion上看到了這一點,因為它們的引入使得長短期記憶算法和RNN(遞歸神經(jīng)網(wǎng)絡(luò))對自然語言應(yīng)用的方法不太有利。

有人預(yù)測,生成AI生態(tài)系統(tǒng)將演變?yōu)槿龑幽P?,基礎(chǔ)層是一系列基于文本、圖像、語音和代碼的基礎(chǔ)模型,這些模型攝取大量數(shù)據(jù),基于大型深度學(xué)習(xí)模型構(gòu)建,并結(jié)合了人類判斷。接下來,特定于行業(yè)和功能的領(lǐng)域模型將改善醫(yī)療保健、法律或其他類型的數(shù)據(jù)的處理。在頂層,公司將使用專有數(shù)據(jù)及其主題專業(yè)知識來構(gòu)建專有模型。這三個層將顛覆團隊開發(fā)模型的方式,并將迎來模型即服務(wù)的新時代。

如何選擇生成式 AI 模型:首要注意事項

根據(jù)Sisense的Lev的說法,在模型之間進行選擇時的首要考慮因素包括以下內(nèi)容:

您要解決的問題。選擇已知適用于您的特定任務(wù)的模型。例如,將轉(zhuǎn)換器用于語言任務(wù),將 NeRF 用于 3D 場景。

數(shù)據(jù)的數(shù)量和質(zhì)量。Diffusion需要大量良好的數(shù)據(jù)才能正常工作,而VAE則在數(shù)據(jù)較少的情況下工作得更好。

結(jié)果的質(zhì)量。GAN 更適合清晰和詳細的圖像,而 VAE 更適合更平滑的結(jié)果。

訓(xùn)練模型的難易程度。GAN可能很難訓(xùn)練,而VAE和Diffusion更容易。

計算資源要求。NeRF和Diffusion都需要大量的計算機能力才能正常工作。

需要控制和理解。如果您想更好地控制結(jié)果或更好地了解模型的工作原理,VAE 可能比 GAN 更好。

責(zé)任編輯:華軒 來源: AI技術(shù)和商業(yè)思維
相關(guān)推薦

2022-10-31 13:26:12

機器學(xué)習(xí)人工智能算法

2024-08-02 08:52:51

2024-09-14 15:25:48

2023-04-10 10:28:33

ChatGPTAI風(fēng)險管理計劃

2023-05-26 11:14:04

人工智能安全性

2019-05-13 09:45:41

生成式對抗網(wǎng)絡(luò)GANs深度學(xué)習(xí)

2024-01-23 10:35:09

ChatGPT人工智能

2019-06-04 10:40:07

2024-10-10 13:20:35

2024-02-06 08:00:00

JavaScriptAI大語言模型

2025-03-17 07:00:00

自主式ACIO人工智能

2020-10-13 07:00:00

機器學(xué)習(xí)人工智能

2022-01-13 19:07:09

人工智能AI深度學(xué)習(xí)

2025-03-03 11:16:18

2024-04-10 10:28:47

2022-11-25 08:00:00

人工智能工具Grammarly

2024-08-09 08:12:35

深度學(xué)習(xí)VAEsGANs

2025-06-03 01:43:00

2024-08-22 13:56:17

2023-07-17 16:07:51

人工智能監(jiān)管部門
點贊
收藏

51CTO技術(shù)棧公眾號