MLLM中”模態(tài)懶惰“和”模態(tài)偏差“問題常見解決方案總結(jié)。本篇繼續(xù)說明MLLM中多模態(tài)對齊的難點(diǎn)以及現(xiàn)有的解決方法,本系列要說明的主要難點(diǎn)有:多模態(tài)數(shù)據(jù)構(gòu)建跨模態(tài)差異影響融合效果模態(tài)對齊評估效率比較低上一篇中講到了多模態(tài)數(shù)據(jù)構(gòu)建的難點(diǎn)和解決方法,???大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點(diǎn)?有什么解決方法???本篇開始總結(jié)跨模態(tài)差異影響融合效果部分。具體來說就是不同模態(tài)特征分布差異顯著(如圖像與文本的...
8天前 616瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
多模態(tài)大模型中模態(tài)對齊數(shù)據(jù)構(gòu)建的難點(diǎn)及解決方案。多模態(tài)大模型相對于LLM的訓(xùn)練難度更高一些,其中很關(guān)鍵的部分在于模態(tài)的對齊。多模態(tài)對齊需要把各種模態(tài)映射或?qū)R到token空間中,讓圖像、語音等多模態(tài)信息抽象為token表征,從而利用現(xiàn)有的LLM的技術(shù)實(shí)現(xiàn)多模態(tài)領(lǐng)域的思維鏈和涌現(xiàn)。那么本系列開始總結(jié)MLLM中多模態(tài)對齊的難點(diǎn)以及現(xiàn)有的解決方法,下面是本系列想要包含的內(nèi)容。1.模態(tài)對齊的難點(diǎn)總結(jié)模態(tài)對齊數(shù)據(jù)構(gòu)建跨模態(tài)差...
2025-06-10 10:42:03 816瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一種可以“自適應(yīng)切換SFT與RL”的訓(xùn)練框架分享。大家應(yīng)該都還記得,DeepSeekR1的“SFT>RL>增強(qiáng)SFT>增強(qiáng)RL”這種左腳踩右腳直接起飛的操作,這說明監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(RL)交替訓(xùn)練的訓(xùn)練范式確實(shí)可以提高模型性能。很多大佬也有自己做小規(guī)模實(shí)驗(yàn),在進(jìn)行新的訓(xùn)練范式探索:預(yù)訓(xùn)練后做兩次SFT接一次RL預(yù)訓(xùn)練后先RL再SFT....那么如何設(shè)計(jì)訓(xùn)練框架能實(shí)現(xiàn)效果最優(yōu)呢?本篇分享一種可以“自適應(yīng)切換SFT與RL”的訓(xùn)練框架;這...
2025-05-27 06:48:51 1265瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
LLMtraining轉(zhuǎn)inference需要加強(qiáng)的知識總結(jié)。這篇附帶一些職業(yè)規(guī)劃的討論,其實(shí)Training和Inference在不同公司不同崗位業(yè)務(wù)中的定位不同,但總得來說還是存在下面的區(qū)別:LLMTraining:包括但不限于優(yōu)化模型架構(gòu)(MoE),調(diào)節(jié)超參數(shù)優(yōu)化loss,訓(xùn)練微調(diào)(SFT,pretrain,RL,蒸餾)等等,這個是把模型訓(xùn)得更聰明的過程。LLMInference:包括PD分離(KVcache優(yōu)化,Pageattention,Radixattention),并行(各種parallelism,shardin...
2025-05-13 06:42:35 839瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
智駕中的VLA方案總結(jié)。相對于VLM,最近智駕中開始流行VLA,VLM關(guān)注的重點(diǎn)在于環(huán)境建模,VLA除了考慮環(huán)境建模,還需要關(guān)注規(guī)劃和控制問題。總得來說,這些VLA方案中都包含兩個核心組件:PretrainedVLM,側(cè)重思考和慢推理ActionModel,側(cè)重動作預(yù)測那么本篇整合具身智能中主要的四種VLA方案,并聯(lián)合智駕領(lǐng)域進(jìn)行總結(jié)。下面是一個快捷目錄。1.PretrainedVLMLLM+actionprediction2.Visionstateencoderdecodertransformer(fromscratc...
2025-05-13 06:41:08 734瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本篇分享RAG與longcontext結(jié)合的實(shí)踐方案。本篇始于一個老生常談的話題,“一旦大模型的ContextLength變大,RAG還有沒有存活的必要?”RAG主要通過問題從知識庫中找相關(guān)答案,然后把檢索到的內(nèi)容再用大模型總結(jié);Longcontext相當(dāng)于把全部文本內(nèi)容輸入給大模型,利用大模型查找或總結(jié)。這兩者評估的維度包括成本、是否使模型變得更智能、是否可以混合檢索和推理、是否可以緩存、推理時間等等。其實(shí)兩者之爭也相當(dāng)于左右手之爭,...
2025-04-09 12:17:30 1654瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文介紹一種人類場景交互合成方法人類場景交互(HSI)生成對于具身人工智能、虛擬現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域的應(yīng)用至關(guān)重要。雖然現(xiàn)有的方法能夠在三維場景中合成逼真的人類動作,并生成看似合理的人與物體之間的交互,但這些方法嚴(yán)重依賴于包含配對的三維場景和動作捕捉數(shù)據(jù)的數(shù)據(jù)集。而在各種不同的環(huán)境和交互情況下收集這些數(shù)據(jù)既昂貴又耗時。本文介紹一種ZeroHSI,通過整合視頻生成技術(shù)和神經(jīng)人體技術(shù),實(shí)現(xiàn)了零樣本的四維人...
2025-03-24 13:12:04 1432瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本篇介紹超參數(shù)(學(xué)習(xí)率)跨模型尺度的遷移規(guī)律。眾所周知,完整訓(xùn)練一次大型LLM的成本是昂貴的,這就決定了我們不可能像以前一樣直接在大型LLM上反復(fù)測試超參數(shù)。一個很自然的想法是希望可以在同結(jié)構(gòu)的小模型上仔細(xì)搜索超參數(shù),找到最優(yōu)組合后直接遷移到大模型上。盡管這個想法很樸素,但要實(shí)現(xiàn)它并不簡單,它需要我們了解常見的超參數(shù)與模型尺度之間的縮放規(guī)律,本次介紹的文MaximalUpdateParametrization,簡稱“muP”,正是...
2025-03-17 13:07:44 1857瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文介紹一種圖像編碼的方法。圖像標(biāo)記化推動了自回歸圖像生成發(fā)展,但傳統(tǒng)2D網(wǎng)格標(biāo)記和現(xiàn)有1D標(biāo)記方法存在不足,如無法適應(yīng)圖像內(nèi)在復(fù)雜性。FlexTok創(chuàng)新之處在于可將2D圖像投影為可變長度、有序的1D標(biāo)記序列,圖像標(biāo)記化通過提供一種比原始像素更高效、更易處理的壓縮離散表示,極大地推動了自回歸圖像生成的發(fā)展。傳統(tǒng)方法多采用二維網(wǎng)格標(biāo)記化,但像TiTok這樣的最新研究表明,一維標(biāo)記化能夠通過消除網(wǎng)格冗余來實(shí)現(xiàn)高質(zhì)量的...
2025-03-03 09:37:53 1893瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本篇主要總結(jié)目前三種scalinglaw:Pretrain、RL、TestTime相關(guān)的內(nèi)容?,F(xiàn)在關(guān)于scalinglaw是否“撞墻”的討論越來越多,ChinchillaScalingLaw推斷,"即使沒有新數(shù)據(jù),也并不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,性價比過低"。這也是為什么大家由PretrainScalingLaw轉(zhuǎn)到RLScalingLaw和TestTimeScalingLaw的原因。本篇就來以面經(jīng)的形式整理...
2025-02-27 12:50:47 2956瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù),像DeepSeekR1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。如何去設(shè)計(jì)訓(xùn)練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。本篇就以面經(jīng)的形式,探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對模型記憶與泛化能力的作用。下面是一個快捷目錄。一、SFT和RL分別對基座大...
2025-02-21 16:17:38 2669瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文介紹一種視覺tokenizer的生成。AIGC生成模型在人工智能領(lǐng)域發(fā)展迅速,視覺生成主要有基于語言模型和擴(kuò)散模型兩種范式,而tokenizer是其核心組件?,F(xiàn)有tokenizer分別針對圖像或視頻輸入設(shè)計(jì),存在應(yīng)用靈活性和數(shù)據(jù)可擴(kuò)展性的局限。因此需要一種聯(lián)合圖像視頻標(biāo)記器,以實(shí)現(xiàn)從兩種數(shù)據(jù)中聯(lián)合學(xué)習(xí),緩解單模態(tài)數(shù)據(jù)稀缺問題,并提高模型的通用性和可擴(kuò)展性。今天介紹一種OmniTokenizer方法,感興趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 2034瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本篇總結(jié)了多模態(tài)大模型的評測任務(wù)和指標(biāo)。目前多模態(tài)大型語言模型(MLLMs)的研究主要集中在模型架構(gòu)和訓(xùn)練方法上,但用于評估這些模型的基準(zhǔn)測試的分析還比較少。另外目前評測可能還存在三大問題:目標(biāo)不一致:每個模態(tài)、基準(zhǔn)測試都有不同的目標(biāo),導(dǎo)致研究領(lǐng)域碎片化。任務(wù)飽和:多樣化目標(biāo)驅(qū)動的任務(wù)激增,這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準(zhǔn)測試,導(dǎo)致寶貴的資源被忽視或利用不足。指標(biāo)演變與差異:曾經(jīng)推出發(fā)一...
2024-12-20 14:47:59 7868瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?本文將以LLaVA和MiniGPT4為例介紹多模態(tài)大模型數(shù)據(jù)構(gòu)造的方式。數(shù)據(jù)質(zhì)量是決定多模態(tài)模型性能的關(guān)鍵因素。高質(zhì)量的數(shù)據(jù)能夠減少噪聲干擾,提高模型的學(xué)習(xí)和預(yù)測準(zhǔn)確性。同時多模態(tài)數(shù)據(jù)的多樣性直接影響模型的泛化能力。一個包含豐富多樣數(shù)據(jù)的集合能夠訓(xùn)練出更加健壯的模型,使其能夠在不同的應(yīng)用場景中表現(xiàn)良好。本文以LLaVA和MiniGPT4為例,介紹相關(guān)多模態(tài)數(shù)據(jù)的構(gòu)造過程,給大家在訓(xùn)練或者微調(diào)自己的多模態(tài)模型提供思路。L...
2024-11-19 12:54:36 3184瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?本篇總結(jié)了顯卡利用率評估方法及顯卡運(yùn)用優(yōu)化方法。本篇來總結(jié)一些顯卡優(yōu)化的經(jīng)驗(yàn),還是按照面經(jīng)的形式給出,希望能給到大家一些實(shí)際訓(xùn)練效率優(yōu)化的幫助下面是一個快捷目錄。一、如何評估顯卡利用率?二、如何優(yōu)化顯存利用率?一、如何評估顯卡利用率使用deepseed時,zero3如果沒有nvlink,多卡訓(xùn)練下會變慢很多,下面有三種方法來評估訓(xùn)練時發(fā)揮了多少GPU性能。1.flops比值法采用Nvidia可參考的顯卡峰值計(jì)算速度進(jìn)行計(jì)算gpu...
2024-11-19 12:51:31 3076瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文介紹經(jīng)典模型之SwinTransformer。SwinTransformer是一種經(jīng)典的視覺Transformer架構(gòu),專為計(jì)算機(jī)視覺任務(wù)設(shè)計(jì),通過層次化的特征表達(dá)和創(chuàng)新的移位窗口自注意力機(jī)制,有效地處理高分辨率圖像,具有通用性和靈活性,適用于圖像分類、目標(biāo)檢測和語義分割等多種視覺任務(wù)。感興趣的小伙伴可以看看論文:??https:arxiv.orgabs2103.14030??模型介紹上圖為SwinTransformer模型圖。整個模型采取層次化的設(shè)計(jì),一共包含4個Stage,...
2024-11-08 12:36:25 4149瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?分布式訓(xùn)練指南理論篇。本篇來總結(jié)一些分布式訓(xùn)練的知識,還是按照面經(jīng)的形式給出,希望能給到大家一些幫助。題目1訓(xùn)練一個LLM,需要的顯存規(guī)模跟參數(shù)的關(guān)系是什么?2.如果有N張顯存足夠大的顯卡,怎么加速訓(xùn)練?3.如果有N張顯卡,但每個顯卡顯存都不足以裝下一個完整的模型,應(yīng)該怎么辦?4.PP推理時是串行的,1個GPU計(jì)算但其他空閑,有什么其他的優(yōu)化方式?5.DP、TP、PP這3種并行方式可以疊加嗎?6.3D并行或者直接上多機(jī)多卡...
2024-11-04 13:56:14 2618瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本文介紹LLM大模型中其中一種思維鏈DoT。盡管傳統(tǒng)的思維鏈方法使大型語言模型能夠進(jìn)行“思考”,例如思維樹和思維圖方法通過引入分叉結(jié)構(gòu)來探索多種推理路徑。然而,這些方法通常需要額外的控制機(jī)制或依賴多個模型的協(xié)同工作,這無疑增加了實(shí)現(xiàn)和部署的難度。清華大學(xué)的研究團(tuán)隊(duì)最近提出了一個新的思維鏈框架思維圖(DiagramofThought,DoT),號稱是能夠超越線性思維的突破。感興趣的小伙伴可以看看原文:??https:arxiv.orgp...
2024-10-29 14:06:42 2429瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?RAG工程經(jīng)驗(yàn)面經(jīng)總結(jié)。雖然RAG工程整體有很多論文、算法和方法論,但在實(shí)際使用過程中,當(dāng)數(shù)據(jù)量大了RAG很容易出現(xiàn)不可控的問題,本篇就針對實(shí)踐過程中遇到的問題總結(jié)面經(jīng)進(jìn)行分享,看看能不能給大家提供一些幫助。下面是一個快捷目錄。一.RAG如何去優(yōu)化索引結(jié)構(gòu)?二.當(dāng)混合檢索以及基于不同大小的chunk去檢索效果都不太好的時候,如何優(yōu)化?三.如何通過rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去優(yōu)化索引...
2024-10-24 13:29:30 2814瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?本文介紹視覺目標(biāo)檢測模型YOLOv11。2024年9月30日,在YOLOVision活動上,Ultralytics團(tuán)隊(duì)正式宣布發(fā)布YOLOv11。短短2年,YOLO就從YOLOv8一下子迭代到Y(jié)OLOv11,可見目前AI的發(fā)展速度。感興趣的小伙伴可以看看官方的倉庫:https:github.comultralyticsultralytics模型介紹對比YOLOv8(Ultralytics前一代出品),主要有三個模型結(jié)構(gòu)的變化:C3k2機(jī)制。上圖為C3k的網(wǎng)絡(luò)結(jié)構(gòu)圖,2是指調(diào)用時C3k其中的參數(shù)N固定設(shè)置為2。不過從結(jié)構(gòu)...
2024-10-18 15:26:52 7605瀏覽 0點(diǎn)贊 0回復(fù) 0收藏