DeepSeek的開源周已經(jīng)進行到了第四天(前三天報道見文末「相關閱讀」)。今天這家公司一口氣發(fā)布了兩個工具和一個數(shù)據(jù)集:DualPipe、EPLB以及來自訓練和推理框架的分析數(shù)據(jù)。DeepSeek表示,DualPipe曾在V3R1的訓練中使用,是一種用于計算通信重疊的雙向pipeline并行算法。EPLB是為V3R1打造的專家并行負載均衡器。而公布訓練和推理框架的分析數(shù)據(jù)是為了幫助社區(qū)更好地理解通信計算重疊策略和底層實現(xiàn)細節(jié)。DualPipe鏈接:https:g...
  2025-02-27 12:40:06 3810瀏覽 0點贊 0回復 0收藏
    用AI提高AI的效率,它們就能變得像人類大腦一樣高效?我們的大腦只用了20瓦的能量就能完成復雜思考,而現(xiàn)代AI系統(tǒng)卻需要成排的高功率GPU和驚人的電力消耗。這種差距如何縮?。咳毡続I初創(chuàng)公司SakanaAI團隊提出了一個大膽的愿景:利用AI本身來優(yōu)化AI。他們開發(fā)的「AICUDA工程師」是這一理念的具體實踐。「AICUDA工程師」是第一個用于全自動CUDA內(nèi)核發(fā)現(xiàn)和優(yōu)化的綜合智能體框架。這種方法不僅開創(chuàng)性地將進化計算與大型語言模型相結...
  2025-02-21 13:20:31 2981瀏覽 0點贊 0回復 0收藏
    眾所周知,知識蒸餾技術當前正被大模型領域廣泛使用,它可以在大幅壓縮模型體量的同時保持一定的性能、降低模型時延、提升模型精度,與此同時還能對知識域進行集成和遷移。近日,蘋果研究人員提出了一種蒸餾擴展定律(DistillationScalingLaws),基于計算預算及其在學生和教師之間的分配,我們現(xiàn)在開始可以估算蒸餾模型的性能了。圖1.蒸餾擴展定律的外推。蒸餾擴展定律適用于一系列損失為LT的教師的弱學生模型(LS>2.3)。實線...
  2025-02-14 12:34:15 3244瀏覽 0點贊 0回復 0收藏
    我們都知道,普通大模型的數(shù)學能力并不好,甚至可能會搞不清楚9.8和9.11哪個大。但隨著o1、o3以及DeepSeekR1等推理模型的到來,情況正在發(fā)生變化。比如DeepSeekR1在競賽數(shù)學基準AIME2024上達到了79.8%的準確度,成就了自己頭號開源推理模型的地位。而根據(jù)OpenAI發(fā)布的數(shù)據(jù),o3mini(high)在AIME2024上的準確度更是達到了87.3%,預計o3滿血版的成績還會更好。但即便如此,這些強大的推理模型卻依然常常在一類看起來相當簡單的數(shù)學...
  2025-02-14 12:28:13 3235瀏覽 0點贊 0回復 0收藏
    DeepSeek引爆AI社區(qū)后,人們都在嘗試本地部署和各領域應用,在新模型基礎上持續(xù)改進的方向也被不斷提出。與此同時,英偉達卻在嘗試用DeepSeek給大模型pipeline本身搞自動化。本周三,英偉達在博客中介紹了利用DeepSeekR1和推理時擴展技術來自動生成優(yōu)化GPU內(nèi)核的最新研究成果,效果異常的好。對此有人評價道:難不成英偉達在自拆護城河?也有人已經(jīng)開始擔心自己的工作會不會被AI代替了。隨著AI大模型規(guī)模不斷擴展,能力持續(xù)進步...
  2025-02-13 16:51:52 3022瀏覽 0點贊 0回復 0收藏
    一、引言推理大語言模型(LLM),如OpenAI的o1系列、Google的Gemini、DeepSeek和QwenQwQ等,通過模擬人類推理過程,在多個專業(yè)領域已超越人類專家,并通過延長推理時間提高準確性。推理模型的核心技術包括強化學習(ReinforcementLearning)和推理規(guī)模(Inferencescaling)。主流的大模型強化學習算法,如DPO、PPO、GRPO等,通常需要在完整的思維鏈上進行微調(diào),需要高質量數(shù)據(jù)、精確的獎勵函數(shù)、快速反饋和在線迭代、以及大量的...
  2025-02-12 15:58:36 3221瀏覽 0點贊 0回復 0收藏
    本論文第一作者倪贊林是清華大學自動化系2022級直博生,師從黃高副教授,主要研究方向為高效深度學習與圖像生成。他曾在ICCV、CVPR、ECCV、ICLR等國際會議上發(fā)表多篇學術論文。近年來,AIGC領域發(fā)展十分迅猛。在計算機視覺中,擴散模型已經(jīng)成為一種有效且常用的模型。相反,在自然語言處理領域,內(nèi)容的生成通常通過使用Transformer去生成離散的token。受到這種差異的啟發(fā),越來越多的研究(以VQGAN作為典型代表)開始探索這種基...
  2024-09-19 12:23:48 3284瀏覽 0點贊 0回復 0收藏
    最近,又一款國產(chǎn)AI神器吸引了眾網(wǎng)友和圈內(nèi)研究人員的關注!它就是全新的圖像和視頻生成控制工具——ControlNeXt,由思謀科技創(chuàng)始人、港科大講座教授賈佳亞團隊開發(fā)。X平臺上知名AI博主「AK」推薦從命名來看,ControlNeXt「致敬」了斯坦福大學研究團隊在2023年2月提出的ControlNet,通過引入一些額外的控制信號,讓預訓練的圖像擴散模型(如StableDiffusion)根據(jù)預設的條件調(diào)整和優(yōu)化,實現(xiàn)線稿生成全彩圖,還能做語義分割、邊...
  2024-08-29 13:29:28 3393瀏覽 0點贊 0回復 0收藏
    自今年起,OpenAI的Sora和其他基于DiT的視頻生成模型在AI領域掀起了又一波浪潮。但由于起步較晚,視頻生成領域的很多基礎設施都還有待完善。今年2月份,新加坡國立大學尤洋團隊開源的一個名為???OpenDiT??的項目為訓練和部署DiT模型打開了新思路。這是一個易于使用、快速且內(nèi)存高效的系統(tǒng),專門用于提高DiT應用程序的訓練和推理效率,包括文本到視頻生成和文本到圖像生成。項目上線后非常受歡迎,尤洋團隊也一直在繼續(xù)這方...
  2024-08-26 09:42:58 3562瀏覽 0點贊 0回復 0收藏
    論文一作蘭宇時為南洋理工大學(NTU)博士生,導師為ChenChangeLoy。本科畢業(yè)于北京郵電大學,目前主要研究興趣為基于神經(jīng)渲染的3D生成模型、3D重建與編輯。在ECCV2024中,來自南洋理工大學SLab、上海AILab以及北京大學的研究者提出了一種原生3DLDM生成框架。具體來講,他們針對現(xiàn)有原生3D生成模型可拓展性差、訓練效率低、泛化性較差等問題,提出一種基于3DVAE和3DDiT的兩階段通用3D生成框架LatentNeural?elds3DDiffusion(LN3...
  2024-08-26 09:39:52 3902瀏覽 0點贊 0回復 0收藏
    Sora一出,視頻領域似乎已經(jīng)進入了生成式AI時代。不過直到今天,我們?nèi)匀粵]有用上OpenAI的官方視頻生成工具,等不及的人們已經(jīng)開始尋找其他的方法。最近幾周,一款開源的視頻編輯工具Clapper引發(fā)了人們的關注。與很多科技公司提供的視頻生成器不同,Clapper是一款開源AI故事可視化工具,于一年前推出原型。它的設計目的并非取代傳統(tǒng)視頻編輯器,或使用3D場景作為輸入的現(xiàn)代AI編輯器。Clapper的理念是集合各類生成式AI技術,讓任...
  2024-08-13 13:30:55 3957瀏覽 0點贊 0回復 0收藏
    文章的第一作者是上海交通大學博士研究生趙峻圖(主頁:https:juntuzhao.run),他的研究方向包括計算機視覺和人工智能賦能的生命科學。此外,他還擔任上海交通大學校田徑隊隊長。文章的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉(主頁:https:dequan.wang)。設想一下,如果讓你畫一幅“茶杯中的冰可樂”的圖片,盡管茶杯與冰可樂的組合可能并不恰當,你仍然會很自然地先畫出一個茶杯,然后畫上冰塊與可樂。...
  2024-08-07 09:43:22 3195瀏覽 0點贊 0回復 0收藏
    目前,擴散模型能夠生成多樣化且高質量的圖像或視頻。此前,視頻擴散模型采用UNet架構,主要側重于合成有限時長(通常約為兩秒)的視頻,并且分辨率和縱橫比受到固定限制。Sora的出現(xiàn)打破了這一限制,其采用DiffusionTransformer(DiT)架構,不僅擅長制作10到60秒的高質量視頻,而且還因其生成不同分辨率、各種縱橫比、且遵守實際物理定律的能力而脫穎而出??梢哉fSora是DiT架構最有利的證明,然而,基于Transformer的擴散模型...
  2024-08-05 09:13:53 4279瀏覽 0點贊 0回復 0收藏
    作者介紹:宋亦仁:新加坡國立大學ShowLab博士研究生,主要研究方向包括圖像和視頻生成,AI安全性。黃施捷:新加坡國立大學碩士二年級學生,目前在TiamatAI任算法工程師實習生,主要研究方向是視覺生成。目前在尋找2025fall博士入學機會。最近,lvmin帶來了最新模型PaintsUNDO。這款AI生成工具可以根據(jù)圖片還原整個繪畫過程,整個AIGC社區(qū)都為之震撼。PaintsUNDO的演示demo。早在1個月前,NUS,SJTU,Tiamat等機構聯(lián)合已經(jīng)發(fā)布...
  2024-07-30 11:38:25 3713瀏覽 0點贊 0回復 0收藏
    剛剛,大家期待已久的Llama3.1官方正式發(fā)布了!Meta官方發(fā)出了「開源引領新時代」的聲音。在官方博客中,Meta表示:「直到今天,開源大語言模型在功能和性能方面大多落后于封閉模型。現(xiàn)在,我們正在迎來一個開源引領的新時代。我們公開發(fā)布MetaLlama3.1405B,我們認為這是世界上最大、功能最強大的開源基礎模型。迄今為止,所有Llama版本的總下載量已超過3億次,我們才剛剛開始?!筂eta創(chuàng)始人、CEO扎克伯格也親自寫了篇長文《Op...
  2024-07-24 09:43:53 3362瀏覽 0點贊 0回復 0收藏
    本工作由中科大認知智能全國重點實驗室IEEEFellow陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕數(shù)據(jù)挖掘、機器學習領域,在頂級期刊與會議上發(fā)表多篇論文,谷歌學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智能基礎研究的實驗室,秉持理論研究與應用創(chuàng)新并重的理念,致力于推動人工智能領域的技術創(chuàng)新和發(fā)展。數(shù)據(jù)是大語言模型(LLMs)成功的基石,但并非所有數(shù)據(jù)都有益于模型學習。直覺上,高質量的樣...
  2024-07-23 09:45:03 3972瀏覽 0點贊 0回復 0收藏
    近日,MITCSAIL的一個研究團隊(一作為MIT在讀博士陳博遠)成功地將全序列擴散模型與下一token模型的強大能力統(tǒng)合到了一起,提出了一種訓練和采樣范式:DiffusionForcing(DF)。論文標題:DiffusionForcing:NexttokenPredictionMeetsFullSequenceDiffusion論文地址:https:arxiv.orgpdf2407.01392項目網(wǎng)站:https:boyuan.spacediffusionforcing代碼地址:https:github.combuoyancy99diffusionforcing?如下所示,擴散強制在一...
  2024-07-23 09:32:25 3289瀏覽 0點贊 0回復 0收藏
    本文作者蔣楠是北京大學智能學院二年級博士生,指導教師朱毅鑫教授,與北京通用人工智能研究院黃思遠博士聯(lián)合開展研究工作。他的研究重點是人物交互理解和數(shù)字人的動作生成,并于ICCV,CVPR和ECCV等頂會發(fā)表多篇論文。近年來,人物動作生成的研究取得了顯著的進展,在眾多領域,如計算機視覺、計算機圖形學、機器人技術以及人機交互等方面獲得廣泛的關注。然而,現(xiàn)有工作大多只關注動作本身,以場景和動作類別同時作為約束條件...
  2024-07-12 08:35:54 5802瀏覽 0點贊 0回復 0收藏
    ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收獲1.4kstar(還在瘋狂漲)。項目地址:https:github.comlllyasvielPaintsUNDO通過該項目,用戶輸入一張靜態(tài)圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪制過程,線條變化多端甚是神奇,最終視頻結果和原圖像非常相似:我們再來看一個完整的繪畫過程。PaintsUndo先是用簡單的線條勾勒出人物主...
  2024-07-12 08:27:37 4291瀏覽 0點贊 0回復 0收藏
    本文共同第一作者簡介:張逸驊:密歇根州立大學計算機系博士三年級學生,師從SijiaLiu教授,主要研究方向是大模型的安全、隱私和效率問題。李平治:本科畢業(yè)于中國科學技術大學,將于2024Fall博士入學北卡羅來納大學教堂山分校,師從陳天龍教授,主要研究興趣集中在高效機器學習和AI4Science領域。洪駿遠:德州大學奧斯汀分校博后,導師是ZhangyangWang教授。博士畢業(yè)于密歇根州立大學,師從JiayuZhou教授,目前主要的研究方向...
  2024-07-04 10:23:10 4533瀏覽 0點贊 0回復 0收藏