大家好,今天給大家分享一個(gè)圖像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression,后面我們簡(jiǎn)稱TransDiff。首先,TransDiff是目前最簡(jiǎn)潔的、將ARTransformer與Diffusion結(jié)合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續(xù)輸入(圖像等)經(jīng)過(guò)ARTransformer編碼為圖像語(yǔ)義表征,而后將表征通過(guò)一個(gè)較小的DiffusionDeocder解碼為圖片。其次,我們提出了一種新的自...
5天前 334瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
上周五,Qwen團(tuán)隊(duì)又開(kāi)源了Embedding模型,真是人民需要什么,它開(kāi)源什么呀!現(xiàn)在好了,文本、多模態(tài)、embedding都齊了,別人沒(méi)得玩了!上周朋友就問(wèn),作為Qwen課代表的我,咋沒(méi)分享Qwen3Embedding,哈哈哈哈!這不就來(lái)了嘛,主要是前兩天我還在測(cè)試。Embedding模型的測(cè)試,并不像LLM那樣直觀,給了問(wèn)題之后直接看答案就可以分辨出好壞,Embedding模型還是要測(cè)試在某個(gè)數(shù)據(jù)集下整體得召回率。雖然這次Qwen開(kāi)源了3個(gè)尺寸的模型,0...
2025-06-13 07:17:37 1544瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
自適應(yīng)推理模型的核心就是讓模型自己根據(jù)用戶問(wèn)題的來(lái)判斷是否進(jìn)行推理預(yù)測(cè)。Arm存在三種格式:直接回答、短CoT或代碼、長(zhǎng)CoT,同時(shí)引入AdaGRPO解決傳統(tǒng)GRPO中的格式崩潰問(wèn)題。除了自適應(yīng)模式,Arm還支持另外兩種模式;指令引導(dǎo)模式,用戶明確強(qiáng)制選擇某一種指定推理格式共識(shí)引導(dǎo)模式,聚合直接回答、短CoT或代碼三種格式的輸出,當(dāng)答案一致時(shí),直接返回,否則認(rèn)為任務(wù)較復(fù)雜,切換到LongCoT推理模式。模型的訓(xùn)練分為兩個(gè)階段,...
2025-06-03 06:41:20 666瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。是的,沒(méi)錯(cuò),Qwen團(tuán)隊(duì)又開(kāi)源了,這次是偏好模型WorldPM。偏好模型,就是也可以理解為獎(jiǎng)勵(lì)模型,在強(qiáng)化學(xué)習(xí)中用來(lái)打分的那個(gè)模型!HF:https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper:https:arxiv.orgabs2505.10527WorldPM,是在1500萬(wàn)條訓(xùn)練樣本上進(jìn)行偏好訓(xùn)練,模型規(guī)模從1.5B到72B,同時(shí)發(fā)現(xiàn)偏好模型遵循與語(yǔ)言模型類似的縮放規(guī)律。模型的訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)公共論壇,包括St...
2025-05-20 06:41:02 935瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。從Llama4隕落之后,國(guó)內(nèi)開(kāi)源模型是世界第一,誰(shuí)贊成,誰(shuí)反對(duì)!反對(duì)無(wú)效!應(yīng)該也沒(méi)人反對(duì)吧。模型尺寸、榜單指標(biāo)、首個(gè)混合推理模型,這篇就不重復(fù)介紹了,去看我上一篇內(nèi)容吧。這篇主要是針對(duì)Qwen3實(shí)測(cè),看看真實(shí)測(cè)試效果到底如何!測(cè)試可以在兩個(gè)地方都可以??https:huggingface.cospacesQwenQwen3Demo??或者??https:chat.qwen.ai??主要測(cè)試think和nothink兩種情況。正式測(cè)試開(kāi)始。常規(guī)測(cè)試Qwen32...
2025-05-07 06:53:37 1869瀏覽 0點(diǎn)贊 0回復(fù) 1收藏
下面是我前段時(shí)間跟一位群友的對(duì)話:群友:我最近有都需要進(jìn)行模型微調(diào),但是每個(gè)任務(wù)模型調(diào)完之后都對(duì)單一任務(wù)有明顯提高,但如果合在一起訓(xùn)練的話,效果又達(dá)不到最佳。所以在使用階段,部署了多個(gè)模型,但是顯卡資源真的吃不消,有什么好的解決辦法嗎?我:你是Lora微調(diào),還是全量參數(shù)微調(diào)的。群友:Lora微調(diào),全量參數(shù)微調(diào),也沒(méi)那么多訓(xùn)練資源。我:你既然是Lora微調(diào),那么你在部署的時(shí)候,可以只部署一個(gè)底座模型,然后多...
2025-04-22 07:18:29 1155瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
MetaAI發(fā)布了Llama4模型,終于來(lái)啦!開(kāi)源社區(qū)也是等了很久。本次共兩系列模型Scout和Maverick模型,兩個(gè)模型均為MoE架構(gòu)模型,DeepSeek得含金量還在提高,哈哈哈!榜單效果反正是杠杠滴。HF模型路徑:https:huggingface.cocollectionsmetallamallama467f0c30d9fe03840bc9d0164模型的總體信息如上圖所示,模型MoE架構(gòu)中,無(wú)論是Scout還是Maverick,激活的路由專家數(shù)據(jù)均為1,有點(diǎn)奇怪,之前MoE架構(gòu)一般激活路由專家數(shù)據(jù)都是2或更...
2025-04-09 07:07:26 1704瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
國(guó)內(nèi)Qwen是汪峰,國(guó)外Google是汪峰,昨天Google更新,放出新模型Gemini2.5Pro,凌晨OpenAI更新GPT4o,上新圖像生成功能,難受住了。GPT4o沒(méi)測(cè),但是網(wǎng)上的效果也太好了吧,倒影啥的都太自然了吧。。這篇主要測(cè)試Gemini2.5Pro的能力,整體測(cè)試通過(guò)Google的AIStudio上測(cè)試,每天免費(fèi)50次,正常使用夠了,爽玩還是不夠的。https:aistudio.google.comGemini2.5Pro在Benchmark上效果還是很好的,甚至在lmsys的對(duì)戰(zhàn)榜單上,現(xiàn)在是第一...
2025-03-27 07:57:17 2284瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今早看到了百度文心大模型4.5和X1可以免費(fèi)使用啦!之前說(shuō)4月1號(hào)免費(fèi),這提前半個(gè)月,估計(jì)是最近大模型廠商一直都在開(kāi)源,壓力太大了!話說(shuō)回來(lái),2025年是真卷,幾乎每一周都有新東西,也都有爆款。之前我是隨機(jī)更,現(xiàn)在都變成日更啦!文心4.5是個(gè)多模態(tài)大模型,可以對(duì)文字、圖片、音頻、視頻等內(nèi)容進(jìn)行綜合理解。文心X1是深度思考的推理大模型,但支持多模態(tài)和工具使用,具有更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化的能力。從榜單上看效...
2025-03-17 01:11:39 2736瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天給大家?guī)?lái)一篇探討大模型預(yù)訓(xùn)練與微調(diào)之間關(guān)系的文章,主要通過(guò)微調(diào)預(yù)訓(xùn)練階段各個(gè)checkpoint,來(lái)發(fā)現(xiàn)預(yù)訓(xùn)練本身或?qū)ο掠挝⒄{(diào)有哪些影響。大模型在預(yù)訓(xùn)練過(guò)程中的性能如何變化?更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響?大模型微調(diào)學(xué)到了什么,又忘記了什么?Paper:https:arxiv.orgabs2408.06663由于目前開(kāi)源模型中,開(kāi)放全量checkpoints的模型較少,并且實(shí)驗(yàn)成本較大,以下分析結(jié)果主要基于OLMo1B模型(同時(shí)訓(xùn)練細(xì)節(jié)、預(yù)訓(xùn)練...
2025-03-05 10:55:09 2231瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
言簡(jiǎn)意賅,發(fā)現(xiàn)月之暗面開(kāi)源MoE模型,總參數(shù)量15.29B,激活參數(shù)2.24B,使用Muon優(yōu)化器,在5.7TTokens的訓(xùn)練數(shù)據(jù)下,拿到了很好的效果。Github:https:github.comMoonshotAIMoonlightHF:https:huggingface.comoonshotaiMoonlight16BA3BPaper:https:github.comMoonshotAIMoonlightblobmasterMoonlight.pdf效果如下:比較Muon和Adam的擴(kuò)展定律實(shí)驗(yàn),發(fā)現(xiàn)Muon的樣本效率比Adam高2倍。Muon優(yōu)化器原理如下:同時(shí),Moonlight16BA3B的...
2025-02-25 12:49:10 2528瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近DeepSeekR1蒸餾太火了,昨天在群里跟群友們問(wèn)白嫖R1接口的事情,想著多點(diǎn)搞免費(fèi)額度蒸餾一波滿血版DeepSeekR1,來(lái)做做試驗(yàn)。結(jié)果一個(gè)小伙伴,跟我講,他們(無(wú)問(wèn)芯穹)的滿血版DeepSeekR1API是免費(fèi)調(diào)用的,不僅如此,還有DeepSeekV3、Deepseek蒸餾版本模型R1DistillQwen32b也是免費(fèi)的。當(dāng)然,現(xiàn)在DeepSeek流量真的爆炸,公眾號(hào)標(biāo)題帶DeepSeek流量都會(huì)更高一些,算是現(xiàn)象級(jí)模型了。在這里為春節(jié)期間同樣努力奮斗,放出新模型...
2025-02-17 07:26:05 3084瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天看到vLLM的朋友圈發(fā)布了DeepSeekR1的PP支持,立刻開(kāi)始我的搗鼓之旅,假如我訓(xùn)練的超大MoE上線了,也得做好技術(shù)準(zhǔn)備工作是不嘛。把踩坑經(jīng)驗(yàn)給大家分享一下,希望能夠相比于官方文檔更白話一點(diǎn)。DistributedInferenceandServing:https:docs.vllm.aienlatestservingdistributedserving.htmlrunningvllmonmultiplenodes知乎游凱超說(shuō)一定要讓整個(gè)過(guò)程變得絲滑無(wú)比,我倆配合做了幾個(gè)驗(yàn)證,現(xiàn)在應(yīng)該只需要Step0和Step3就可以run起...
2025-02-06 15:33:59 7553瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。就在今晚,Kimi發(fā)布了最新模型k1.5,先來(lái)看榜單效果,簡(jiǎn)直爆炸。在長(zhǎng)推理上,k1.5在數(shù)學(xué)能力上,無(wú)論是純文本還是視覺(jué)多模態(tài)上,都遠(yuǎn)超openai的o1模型;在codeforces與其持平,LiveCode上略差,但相比于QVQ和QWQ有較大的優(yōu)勢(shì)。在短推理上,k1.5的數(shù)學(xué)能力真實(shí)遙遙領(lǐng)先,無(wú)論是gpt4o還是claude3.5sonnet都遠(yuǎn)不如k1.5,尤其是在AIME榜單上,k1.5有60.8,而最高的deepseekv3只有39.2,堪稱斷層式碾壓。這個(gè)應(yīng)...
2025-01-22 13:33:53 3663瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。前段時(shí)間一直都在嘗試用多模態(tài)大模型進(jìn)行落地應(yīng)用,除了問(wèn)答之外,那么最容易想到的就是文檔解析了。一來(lái)多模態(tài)大模型本身就有強(qiáng)大的OCR功能,二來(lái)知識(shí)加工對(duì)于大模型落地來(lái)說(shuō)也是重中之重,三來(lái)現(xiàn)在很多文檔拆解的API或者項(xiàng)目,效果都沒(méi)有那么理想吧,比如:夾雜公式的文本、復(fù)雜表格等。思路是不是很正,于是乎我就嘗試用多模態(tài)大模型進(jìn)行表格解析的任務(wù)了。結(jié)果就是:全是眼淚!痛,太痛了!今天此貼主...
2025-01-14 12:31:34 2039瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天給大家?guī)?lái)一篇知乎好友hadiii的一篇文章,匯總Llama3.1、DeepSeekV3、TüLU3和Qwen2.5的后訓(xùn)練PostTraining技術(shù)。知乎:https:zhuanlan.zhihu.comp12862210431本文匯總Llama3.1,DeepSeekV3,TüLU3,Qwen2.5報(bào)告的后訓(xùn)練部分,摘錄其中核心的細(xì)節(jié)。大多涉及到數(shù)據(jù),SFT,RL(各種RM訓(xùn)練,DPO,GRPO,RLVR等等)。1.Llama3.1paper:https:ai.meta.comresearchpublicationsthellama3herdofmodelsIllustrationoftheoverallpos...
2025-01-03 14:05:37 2990瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。沒(méi)錯(cuò),是的,對(duì)的,很棒,千問(wèn)!QWQ之后,千問(wèn)團(tuán)隊(duì)又開(kāi)源了視覺(jué)推理大模型QVQ,是72B的呦。圣誕快樂(lè),如期而至!HF:https:huggingface.coQwenQVQ72BPreview為啥是72B,可想而知,這個(gè)QVQ就是基于前一段時(shí)間開(kāi)源的Qwen2VL72B模型上進(jìn)一步訓(xùn)練得來(lái)的。有個(gè)7B的為啥沒(méi)出QVQ7B,估計(jì)是參數(shù)來(lái)太少,做o1式推理效果不行,QWQ也是32B起步的,所以模型參數(shù)量很關(guān)鍵。在榜單上的效果,QVQ在MMMU是突破了70,并且整...
2024-12-25 12:12:27 2759瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
模型概述Megrez3BOmni是由無(wú)問(wèn)芯穹研發(fā)的端側(cè)全模態(tài)理解模型,基于無(wú)問(wèn)大語(yǔ)言模型Megrez3BInstruct擴(kuò)展,同時(shí)具備圖片、文本、音頻三種模態(tài)數(shù)據(jù)的理解分析能力,具體模型參數(shù)如下表所示。Megrez3BOmni在并未犧牲模型的文本處理能力的前提下,在三個(gè)模態(tài)上相較于同等參數(shù)模型,均取得較好的效果。圖源:https:internvl.github.ioblog20241205InternVL2.5注意:下面的文本、圖像、語(yǔ)音評(píng)測(cè)均基于https:huggingface.cospacesInfini...
2024-12-17 13:06:53 3873瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在看了OpenAI的直播,精讀了字節(jié)論文,以及和知乎真中合歡激烈辯論后。我對(duì)RFT(ReinforcementFineTuning)也有了一些自己的認(rèn)知,這篇文章給大家分享一下我的理解。首先給出我的結(jié)論:RFT并不是新的技術(shù)范式,而是PPO技術(shù)范式下的新應(yīng)用范式,RFT相比于傳統(tǒng)PPO的創(chuàng)新點(diǎn)是rulebasedrewardmodel。疊甲聲明:RFT屬于應(yīng)用范式,RFT依賴的是rulebasedrewardmodel,這兩個(gè)觀點(diǎn)屬于個(gè)人看法,如有不對(duì),還望輕噴。至于“dozensofdata”...
2024-12-13 13:10:40 2707瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
晚上發(fā)現(xiàn)kimi也更新了,之前網(wǎng)上流傳的kimi在數(shù)學(xué)上對(duì)標(biāo)o1的模型,可以測(cè)試了。感覺(jué)有點(diǎn)迫于deepseek的壓力了,本來(lái)應(yīng)該是國(guó)內(nèi)第一個(gè)的,長(zhǎng)推理、類o1的模型,現(xiàn)在變成了第二個(gè)。模型版本叫k0math,在數(shù)學(xué)上的效果也是對(duì)標(biāo)openaio1,官方也僅僅表示說(shuō)在數(shù)學(xué)能力上較強(qiáng)。來(lái)自官方帖子https:mp.weixin.qq.comsg4DltigncX4sfaQ6Qn1zA但我非要測(cè)試看看在文本推理上的效果如何。測(cè)試界面是側(cè)邊欄的小眼鏡圖標(biāo),進(jìn)來(lái)直接就可以測(cè)試,...
2024-11-27 15:42:21 2334瀏覽 0點(diǎn)贊 0回復(fù) 0收藏