偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="ulhee"><label id="ulhee"></label></tt>

<big id="ulhee"><samp id="ulhee"><small id="ulhee"></small></samp></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

淺談視覺Transformer技術(shù)

發(fā)布于 2024-9-4 12:16

瀏覽

0收藏

1.標(biāo)準(zhǔn)Transformer

淺談視覺Transformer技術(shù)-AI.x社區(qū)

經(jīng)典Transformer模型(如上圖所示)，它是由編碼器（藍框）和解碼器（綠框）組成，標(biāo)準(zhǔn)Vision Transformer(ViT)[2]主要應(yīng)用了其中的編碼器,編碼器模塊主要由一個Multi-Head Self-Attention(MHA)和一個Multilayer Perceptron(MLP)組成。

淺談視覺Transformer技術(shù)-AI.x社區(qū)

2.視覺Transformer

標(biāo)準(zhǔn)Transformer編碼器的輸入是一維embedding，為了能將該編碼器應(yīng)用于圖像任務(wù)，將尺寸為(H,W,C)的圖像切分成尺寸為(P,P,C)的圖像塊，一共得到 $淺談視覺Transformer技術(shù)-AI.x社區(qū)$ 個圖像塊，reshape后得到尺寸為( $淺談視覺Transformer技術(shù)-AI.x社區(qū)$ , $淺談視覺Transformer技術(shù)-AI.x社區(qū)$

的輸入embedding，這系列操作將2維圖像數(shù)據(jù)轉(zhuǎn)為1維，使得標(biāo)準(zhǔn)Transformer編碼器能對其進行處理，編碼后將特征送入MLP模塊進行分類，這就是標(biāo)準(zhǔn)的ViT(Vision Transformer)，ViT在大型數(shù)據(jù)集上預(yù)訓(xùn)練，針對較小的下游任務(wù)作微調(diào)訓(xùn)練。在ImageNet數(shù)據(jù)集上取得了88.55% Top-1的準(zhǔn)確率，超越了ResNet系列模型，打破了CNN（卷積神經(jīng)網(wǎng)絡(luò)）在視覺任務(wù)上的壟斷，相較于CNN具有更強泛化能力。但是，該模型在小規(guī)模數(shù)據(jù)集的表現(xiàn)不如CNN，并且隨著圖像尺寸的增加，Vision Transformer的計算量會成指數(shù)倍的增長，于是有2種流派來提升Vision Transformer的效果。

一種是改良派，該流派認為Transformer缺少CNN的歸納偏置（平移不變性，局部相關(guān)性），改良Transformer編碼器結(jié)構(gòu)，在其中加入圖像任務(wù)的歸納偏置。標(biāo)準(zhǔn)的ViT模型的輸出特征是扁平的，其尺寸為輸入圖像尺寸的1/16，這種維度的特征對于分類任務(wù)是可以接受的，對于檢測或者分割任務(wù)通常需要{1/4,1/8,1/16,1/32}尺度的特征，而大尺度的特征圖也會極大增加Self-Attention模塊的計算量，所以必須在引入多尺度特征的同時降低計算量。Pyramid Vision Transformer(PVT)[3]提出了Spatial-Reduction Attention(SRA)層，如下圖左SRA與MHA一樣接收query Q、key K和value V作為輸入，不同之處在于SRA在attention操作之前降低了K和V的特征維度，這可以將計算和內(nèi)存的開銷減少為之前的 $淺談視覺Transformer技術(shù)-AI.x社區(qū)$

淺談視覺Transformer技術(shù)-AI.x社區(qū)

淺談視覺Transformer技術(shù)-AI.x社區(qū)

另一種是大模型派，在NLP領(lǐng)域，模型越大，模型對于零樣本和少樣本任務(wù)的能力越強。增加ViT模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)，再結(jié)合自監(jiān)督訓(xùn)練，也能提升各種下游任務(wù)的表現(xiàn)。ViT比CNN需要更多的訓(xùn)練數(shù)據(jù)，自監(jiān)督學(xué)習(xí)的設(shè)計顯得尤為重要。BEiT-3[5]模型架構(gòu)基于40層的ViT-Giant組成，如下圖左模型共包含19億個參數(shù)。在預(yù)訓(xùn)練數(shù)據(jù)上，BEiT-3 在單模態(tài)（即圖像與文本）和多模態(tài)數(shù)據(jù)（即圖像-文本對）上通過統(tǒng)一的掩碼-預(yù)測任務(wù)進行 BEiT-3 預(yù)訓(xùn)練。預(yù)訓(xùn)練期間，會隨機掩蓋一定百分比的文本字符或像素塊，模型通過被訓(xùn)練恢復(fù)掩蓋的文本字符或其視覺符號，來學(xué)習(xí)不同模態(tài)的表示及不同模態(tài)間的對齊，BEiT-3在分類、檢測、分割多個基準(zhǔn)上刷新了記錄。22年12月智源開源了簡單又強大的視覺基礎(chǔ)模型EVA[6]，將最強語義學(xué)習(xí)與最強幾何結(jié)構(gòu)學(xué)習(xí)相結(jié)合，在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務(wù)中取得當(dāng)前最強性能。EVA，如下圖右將ViT規(guī)模擴大到十億參數(shù)（1-Billion）ViT-Giant進行訓(xùn)練，CLIP[7]模型輸入為完整的圖像，而EVA模型的輸入為有遮蓋的圖像，訓(xùn)練過程是讓EVA模型遮蓋部分的輸出去重構(gòu)CLIP模型對應(yīng)位置的輸出。

淺談視覺Transformer技術(shù)-AI.x社區(qū)

淺談視覺Transformer技術(shù)-AI.x社區(qū)

3.總結(jié)

ViT技術(shù)使得目標(biāo)檢測、圖像識別、自動駕駛等領(lǐng)域都得到了質(zhì)的飛躍，通過在預(yù)訓(xùn)練ViT基礎(chǔ)上微調(diào)下游任務(wù)，企業(yè)可以快速地將AI技術(shù)應(yīng)用到實際生產(chǎn)和業(yè)務(wù)中，創(chuàng)造出更多的商業(yè)價值。筆者在微調(diào)ViT-Giant檢測模型時發(fā)現(xiàn)，batchszie設(shè)置為1時顯存達到25GB以上，P40(22GB)顯卡已經(jīng)無法容納微調(diào)訓(xùn)練，只能將代碼及數(shù)據(jù)遷移至V100云主機得以繼續(xù)訓(xùn)練，大型ViT的預(yù)訓(xùn)練則需要更大的算力，這導(dǎo)致只有擁有大量算力的資源和數(shù)據(jù)的企業(yè)才能夠開發(fā)和應(yīng)用大型ViT模型，從而加深產(chǎn)業(yè)的技術(shù)壁壘。ViT技術(shù)給AI產(chǎn)業(yè)帶來了巨大的影響，其影響將持續(xù)深遠。

參考文獻

[1]Attention is all you need

[2]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

[3]Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

[4]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

[5]Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

[6]EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

[7]Contrastive Language-Image Pre-Training

本文轉(zhuǎn)載自??AI遇見云??，作者：周華健 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 5720瀏覽 ? 0回復(fù)
計算機視覺關(guān)鍵技術(shù)

mb66125a723d24d ? 2753瀏覽 ? 0回復(fù)
The Annotated Transformer注釋加量版，讀懂代碼就真的懂了Transformer

魚蟲子 ? 3405瀏覽 ? 0回復(fù)
淺談大模型RAG架構(gòu)落地的十大挑戰(zhàn)

玄姐聊AGI ? 4201瀏覽 ? 0回復(fù)
淺談RPA技術(shù)及其應(yīng)用

zhcs333 ? 3379瀏覽 ? 0回復(fù)
MSRA：視覺生成六大技術(shù)問題

Crystalcxt ? 2226瀏覽 ? 0回復(fù)
淺談—領(lǐng)域模型訓(xùn)練

NLP工作站 ? 2598瀏覽 ? 0回復(fù)
Transformer 動畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù)

玄姐聊AGI ? 2535瀏覽 ? 0回復(fù)
開源閉源爭論不休，淺談大模型開源和閉源

NLP工作站 ? 2433瀏覽 ? 0回復(fù)
淺談基于LLM的三階段自動知識圖譜構(gòu)建方法

大模型自然語言處理 ? 3096瀏覽 ? 0回復(fù)
微軟發(fā)布LLM2CLIP：一種新型AI技術(shù)，LLM成為CLIP視覺編碼器的“老師”

Halo咯咯 ? 4164瀏覽 ? 0回復(fù)
OmniTokenizer-視覺tokenizer生成

shizhi02 ? 2051瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)技術(shù)棧介紹——PyTorch，Transformer，NLP，CV，Embedding

AI探索時代 ? 2112瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 8573瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語言處理 ? 3630瀏覽 ? 0回復(fù)
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 2430瀏覽 ? 0回復(fù)
淺談國產(chǎn)化AI芯片模型部署實踐

zhcs333 ? 2981瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實踐的深度解析！

南夏的算法驛站 ? 2309瀏覽 ? 0回復(fù)
圖神經(jīng)網(wǎng)絡(luò)崛起，Transformer助力無人機組團“開掛”！多智能體協(xié)作技術(shù)再突破！

xuxiangda ? 2080瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

揭秘Google A2A協(xié)議：原理、應(yīng)用與未來 2025-04-30 06:10:42發(fā)布
融合語言模型的多模態(tài)大模型研究 2025-04-08 00:32:18發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： Kubeflow集成Volcano實現(xiàn)高效AI訓(xùn)練

下一篇： LLM微調(diào)技術(shù)調(diào)研

社區(qū)精華內(nèi)容

目錄

<thead id="ua5nc"><b id="ua5nc"><track id="ua5nc"></track></b></thead>

<track id="ua5nc"></track>

<em id="ua5nc"></em>