DeepSeek又開(kāi)源了,這次是OCR模型,整個(gè)模型大小在3B。DeepSeekOCR的提出,是為了探索,是否可以通過(guò)視覺(jué)模態(tài)進(jìn)行文本信息的高效壓縮,也就是把文檔內(nèi)容,用圖像Token表示,其Token數(shù)量會(huì)遠(yuǎn)小于原始文本Tokens數(shù),說(shuō)白了,你1w字,可能需要5000個(gè)Token,但用圖像來(lái)表示,可能只需要512個(gè)Token。實(shí)話實(shí)說(shuō),直接升華了,我之前研究VLM做OCR,就是解決PDF轉(zhuǎn)成文本的問(wèn)題,沒(méi)想到DeepSeek,是在想用圖像視覺(jué)壓縮文本。先說(shuō)結(jié)論:這...
2025-10-21 00:36:13 3527瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
昨天刷到美團(tuán)龍貓又開(kāi)源新模型了,LongCatFlashThinking,這次是思考模型。8月底,美團(tuán)先開(kāi)了LongCat模型,我也是第一時(shí)間評(píng)測(cè)了!這次LongCatFlashThinking的技術(shù)報(bào)告依舊干貨滿滿,很多有意思的東西,就比如各領(lǐng)域數(shù)據(jù)分開(kāi)進(jìn)行RL,然后融合,我之前只看到在SFT上會(huì)這么做,沒(méi)想到RL也行咱們依舊老規(guī)矩先看細(xì)節(jié),再評(píng)測(cè)。LongCatFlashThinking,也是MoE模型,模型結(jié)構(gòu)跟LongCat一樣,依舊是零計(jì)算專(zhuān)家等等,相關(guān)介紹看我上一篇...
2025-09-24 07:07:05 2214瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Qwen又開(kāi)源了,身為守護(hù)官的我,必須帶來(lái)一手實(shí)測(cè)。這次開(kāi)源的模型是Qwen3Next80BA3B模型,依舊MoE,80B總參數(shù),激活3B,與以往不同的是,這次是混合注意力架構(gòu)。Next意味著Qwen即將進(jìn)入下一代,俊旸也說(shuō)了,這是下一代的preview版本。細(xì)數(shù)一下,Qwen2.5系列應(yīng)該是Dense的神,Qwen3系列應(yīng)該是Qwen穩(wěn)定邁向MoE架構(gòu),而Next系列,就是開(kāi)啟Qwen混合架構(gòu)的第一步,像MiniMaxM1、HunYuan早期版本都是混合注意力架構(gòu),也就是線性注意...
2025-09-24 07:05:49 2508瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
前兩天,字節(jié)發(fā)布了Seedream4.0模型,跟NanoBanana一樣,從生成到編輯實(shí)現(xiàn)一站式創(chuàng)作,有很強(qiáng)的一致性和可控性,相較于之前版本有極大程度的提高。沒(méi)想到,剛寫(xiě)完NanoBanana,就迎來(lái)了我第二篇生圖文章,哈哈哈哈。體驗(yàn)之后,覺(jué)得多圖融合、參考生圖還是復(fù)雜的圖像編輯效果都很好,同時(shí)在NanoBanana不擅長(zhǎng)的中文顯示上也賊強(qiáng)。Seedream4.0模型在豆包、即夢(mèng)、火山方舟上都能使用,我是直接在火山方舟的體驗(yàn)中心測(cè)試,??https:e...
2025-09-12 07:18:08 8506瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
也許是最近開(kāi)源模型太多(Qwen3、K2、Step3、GLM4.5等等),也許是大家等R2時(shí)間太久,DeepSeek開(kāi)源V3.1模型,竟然能被狂噴,這點(diǎn)我是沒(méi)有想到的。如果說(shuō)是APP、客戶端,那沒(méi)辦法,畢竟DS的顯卡資源有限,我反正能理解。API的話,就真不至于,因?yàn)镈eepSeekV3.1模型本身就開(kāi)源,完全可以自己部署之前版本,或者用火山引擎、阿里百煉、硅基流動(dòng)等等等云模型廠商的老版本API。然后從昨晚到今天,也是看了不少帖子,褒貶不一。跟不少...
2025-08-29 07:11:32 3087瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
7月就很卷了,見(jiàn)國(guó)內(nèi)開(kāi)源大模型整理,8月沒(méi)想到依然卷。從一開(kāi)始的騰訊開(kāi)源小模型,到Qwen開(kāi)源Image模型,再到小紅書(shū)dots.vlm1、面壁MiniCPMV4.0,然后今天智譜又發(fā)布了GLM4.5V。對(duì),就這樣卷,利好開(kāi)源社區(qū)、利好我們這些開(kāi)發(fā)者!那么今天來(lái)看看這個(gè)GLM4.5V模型到底如何?先上測(cè)試,再聊模型細(xì)節(jié)!測(cè)試除了OCR識(shí)別、表格識(shí)別、理解計(jì)算、網(wǎng)頁(yè)復(fù)刻、報(bào)告分享、目標(biāo)識(shí)別、目標(biāo)對(duì)比、數(shù)學(xué)做題、圖片排序、空間邏輯、空間變換、色...
2025-08-18 06:53:00 3262瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
實(shí)話實(shí)說(shuō),本來(lái)沒(méi)有這篇稿子,我并沒(méi)有太關(guān)注BaichuanM2這個(gè)模型,因?yàn)樽罱_(kāi)源社區(qū)太火爆了,各家都在卷。7月份見(jiàn)?開(kāi)源模型盤(pán)點(diǎn),而8月剛過(guò)半,已經(jīng)有QwenImage、dots.vlm1、MiniCPMV4.0、GLM4.5V等等等。那么,BaichuanM2這個(gè)垂域模型就顯得不那么驚艷了(很多人都更關(guān)心通用模型),還有百川上次開(kāi)源M1已經(jīng)是五六個(gè)月前了,當(dāng)時(shí)在群里發(fā)AI日?qǐng)?bào),一眾小伙伴都驚訝百川還在發(fā)模型。PS:不過(guò)我群里有個(gè)內(nèi)應(yīng),說(shuō)他們項(xiàng)目挺多的...
2025-08-18 06:49:31 1273瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
騰訊HunYuan又開(kāi)源了4個(gè)端側(cè)小模型0.5B、1.8B、4B、7B,共4個(gè)尺寸,主打輕量端側(cè)。Hunyuan0.5B:https:huggingface.cotencentHunyuan0.5BInstructHunyuan1.8B:https:huggingface.cotencentHunyuan1.8BInstructHunyuan4B:https:huggingface.cotencentHunyuan4BInstructHunyuan7B:https:huggingface.cotencentHunyuan7BInstructHunYuan也開(kāi)始走全系列開(kāi)源的路子了,是不是跟Qwen干上了呀!我是真沒(méi)想到,騰訊也開(kāi)始大規(guī)模開(kāi)源...
2025-08-05 07:19:34 3123瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
騰訊前兩天開(kāi)源了混元A13B模型,A13B模型是一個(gè)MoE模型,總參數(shù)80B,激活參數(shù)13B,同時(shí)支持快慢思考兩種模式切換。Paper:https:github.comTencentHunyuanHunyuanA13BblobmainreportHunyuanA13BTechnicalReport.pdfHF:https:huggingface.cocollectionstencenthunyuana13b685ec38e5b46321e3ea7c4be騰訊之前開(kāi)源3D生成模型關(guān)注度很高,文本大模型上一次開(kāi)源已經(jīng)是5個(gè)月前的HunYuan7B和HunYuanLarge模型了。由于Qwen3的系列模型沒(méi)...
2025-07-11 07:56:12 3244瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。最近開(kāi)源社區(qū)好起來(lái)了,先是華為、百度、騰訊,相繼開(kāi)源模型,然后昨天智譜又開(kāi)源了模型,GLM4.1VThinking,又是被刷屏朋友圈了!但是說(shuō)實(shí)話,一開(kāi)始因?yàn)檫@個(gè)標(biāo)題,我都不想測(cè)試GLM4.1VThinking了,感覺(jué)就很夸張,并且一猜就是干掉了Qwen2.5VL72B。PS:我Qwen天天被吊打??!不過(guò),有個(gè)好友非要讓我測(cè)一下,因?yàn)樗嬖V我,我之前的表格識(shí)別,這個(gè)9B模型好像可以了。不測(cè)不知道,一測(cè)嚇一跳,沒(méi)想到真出來(lái)了...
2025-07-11 07:48:06 2435瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,今天給大家分享一個(gè)圖像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression,后面我們簡(jiǎn)稱(chēng)TransDiff。首先,TransDiff是目前最簡(jiǎn)潔的、將ARTransformer與Diffusion結(jié)合用于圖像生成方法。TransDiff將離散輸入(如類(lèi)別、文本等)、連續(xù)輸入(圖像等)經(jīng)過(guò)ARTransformer編碼為圖像語(yǔ)義表征,而后將表征通過(guò)一個(gè)較小的DiffusionDeocder解碼為圖片。其次,我們提出了一種新的自...
2025-06-27 00:55:44 1842瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
上周五,Qwen團(tuán)隊(duì)又開(kāi)源了Embedding模型,真是人民需要什么,它開(kāi)源什么呀!現(xiàn)在好了,文本、多模態(tài)、embedding都齊了,別人沒(méi)得玩了!上周朋友就問(wèn),作為Qwen課代表的我,咋沒(méi)分享Qwen3Embedding,哈哈哈哈!這不就來(lái)了嘛,主要是前兩天我還在測(cè)試。Embedding模型的測(cè)試,并不像LLM那樣直觀,給了問(wèn)題之后直接看答案就可以分辨出好壞,Embedding模型還是要測(cè)試在某個(gè)數(shù)據(jù)集下整體得召回率。雖然這次Qwen開(kāi)源了3個(gè)尺寸的模型,0...
2025-06-13 07:17:37 4725瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
自適應(yīng)推理模型的核心就是讓模型自己根據(jù)用戶問(wèn)題的來(lái)判斷是否進(jìn)行推理預(yù)測(cè)。Arm存在三種格式:直接回答、短CoT或代碼、長(zhǎng)CoT,同時(shí)引入AdaGRPO解決傳統(tǒng)GRPO中的格式崩潰問(wèn)題。除了自適應(yīng)模式,Arm還支持另外兩種模式;指令引導(dǎo)模式,用戶明確強(qiáng)制選擇某一種指定推理格式共識(shí)引導(dǎo)模式,聚合直接回答、短CoT或代碼三種格式的輸出,當(dāng)答案一致時(shí),直接返回,否則認(rèn)為任務(wù)較復(fù)雜,切換到LongCoT推理模式。模型的訓(xùn)練分為兩個(gè)階段,...
2025-06-03 06:41:20 1775瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。是的,沒(méi)錯(cuò),Qwen團(tuán)隊(duì)又開(kāi)源了,這次是偏好模型WorldPM。偏好模型,就是也可以理解為獎(jiǎng)勵(lì)模型,在強(qiáng)化學(xué)習(xí)中用來(lái)打分的那個(gè)模型!HF:https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper:https:arxiv.orgabs2505.10527WorldPM,是在1500萬(wàn)條訓(xùn)練樣本上進(jìn)行偏好訓(xùn)練,模型規(guī)模從1.5B到72B,同時(shí)發(fā)現(xiàn)偏好模型遵循與語(yǔ)言模型類(lèi)似的縮放規(guī)律。模型的訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)公共論壇,包括St...
2025-05-20 06:41:02 2363瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是劉聰NLP。從Llama4隕落之后,國(guó)內(nèi)開(kāi)源模型是世界第一,誰(shuí)贊成,誰(shuí)反對(duì)!反對(duì)無(wú)效!應(yīng)該也沒(méi)人反對(duì)吧。模型尺寸、榜單指標(biāo)、首個(gè)混合推理模型,這篇就不重復(fù)介紹了,去看我上一篇內(nèi)容吧。這篇主要是針對(duì)Qwen3實(shí)測(cè),看看真實(shí)測(cè)試效果到底如何!測(cè)試可以在兩個(gè)地方都可以??https:huggingface.cospacesQwenQwen3Demo??或者??https:chat.qwen.ai??主要測(cè)試think和nothink兩種情況。正式測(cè)試開(kāi)始。常規(guī)測(cè)試Qwen32...
2025-05-07 06:53:37 3686瀏覽 0點(diǎn)贊 0回復(fù) 1收藏
下面是我前段時(shí)間跟一位群友的對(duì)話:群友:我最近有都需要進(jìn)行模型微調(diào),但是每個(gè)任務(wù)模型調(diào)完之后都對(duì)單一任務(wù)有明顯提高,但如果合在一起訓(xùn)練的話,效果又達(dá)不到最佳。所以在使用階段,部署了多個(gè)模型,但是顯卡資源真的吃不消,有什么好的解決辦法嗎?我:你是Lora微調(diào),還是全量參數(shù)微調(diào)的。群友:Lora微調(diào),全量參數(shù)微調(diào),也沒(méi)那么多訓(xùn)練資源。我:你既然是Lora微調(diào),那么你在部署的時(shí)候,可以只部署一個(gè)底座模型,然后多...
2025-04-22 07:18:29 2512瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
MetaAI發(fā)布了Llama4模型,終于來(lái)啦!開(kāi)源社區(qū)也是等了很久。本次共兩系列模型Scout和Maverick模型,兩個(gè)模型均為MoE架構(gòu)模型,DeepSeek得含金量還在提高,哈哈哈!榜單效果反正是杠杠滴。HF模型路徑:https:huggingface.cocollectionsmetallamallama467f0c30d9fe03840bc9d0164模型的總體信息如上圖所示,模型MoE架構(gòu)中,無(wú)論是Scout還是Maverick,激活的路由專(zhuān)家數(shù)據(jù)均為1,有點(diǎn)奇怪,之前MoE架構(gòu)一般激活路由專(zhuān)家數(shù)據(jù)都是2或更...
2025-04-09 07:07:26 3151瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
國(guó)內(nèi)Qwen是汪峰,國(guó)外Google是汪峰,昨天Google更新,放出新模型Gemini2.5Pro,凌晨OpenAI更新GPT4o,上新圖像生成功能,難受住了。GPT4o沒(méi)測(cè),但是網(wǎng)上的效果也太好了吧,倒影啥的都太自然了吧。。這篇主要測(cè)試Gemini2.5Pro的能力,整體測(cè)試通過(guò)Google的AIStudio上測(cè)試,每天免費(fèi)50次,正常使用夠了,爽玩還是不夠的。https:aistudio.google.comGemini2.5Pro在Benchmark上效果還是很好的,甚至在lmsys的對(duì)戰(zhàn)榜單上,現(xiàn)在是第一...
2025-03-27 07:57:17 4331瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今早看到了百度文心大模型4.5和X1可以免費(fèi)使用啦!之前說(shuō)4月1號(hào)免費(fèi),這提前半個(gè)月,估計(jì)是最近大模型廠商一直都在開(kāi)源,壓力太大了!話說(shuō)回來(lái),2025年是真卷,幾乎每一周都有新東西,也都有爆款。之前我是隨機(jī)更,現(xiàn)在都變成日更啦!文心4.5是個(gè)多模態(tài)大模型,可以對(duì)文字、圖片、音頻、視頻等內(nèi)容進(jìn)行綜合理解。文心X1是深度思考的推理大模型,但支持多模態(tài)和工具使用,具有更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化的能力。從榜單上看效...
2025-03-17 01:11:39 4270瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天給大家?guī)?lái)一篇探討大模型預(yù)訓(xùn)練與微調(diào)之間關(guān)系的文章,主要通過(guò)微調(diào)預(yù)訓(xùn)練階段各個(gè)checkpoint,來(lái)發(fā)現(xiàn)預(yù)訓(xùn)練本身或?qū)ο掠挝⒄{(diào)有哪些影響。大模型在預(yù)訓(xùn)練過(guò)程中的性能如何變化?更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響?大模型微調(diào)學(xué)到了什么,又忘記了什么?Paper:https:arxiv.orgabs2408.06663由于目前開(kāi)源模型中,開(kāi)放全量checkpoints的模型較少,并且實(shí)驗(yàn)成本較大,以下分析結(jié)果主要基于OLMo1B模型(同時(shí)訓(xùn)練細(xì)節(jié)、預(yù)訓(xùn)練...
2025-03-05 10:55:09 3349瀏覽 0點(diǎn)贊 0回復(fù) 0收藏