偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AIGCStudio
LV.3
關(guān)注AI、深度學(xué)習(xí)、計(jì)算機(jī)視覺、AIGC、Stable Diffusion、Sora等
聲望 289
關(guān)注 0
粉絲 0
私信
主帖 35
回帖
TripoAI發(fā)布了最新3D生成模型TripoSG,能夠生成與輸入圖像精確對(duì)應(yīng)的高保真3D形狀樣本。涵蓋各種復(fù)雜結(jié)構(gòu)、多樣風(fēng)格、富有想象力的設(shè)計(jì)、多對(duì)象組合以及細(xì)節(jié)豐富的輸出,展現(xiàn)了其強(qiáng)大的生成能力。主要特點(diǎn)總結(jié)如下:高保真生成:生成具有清晰幾何特征、精細(xì)表面細(xì)節(jié)和復(fù)雜結(jié)構(gòu)的網(wǎng)格語(yǔ)義一致性:生成的形狀準(zhǔn)確反映輸入圖像的語(yǔ)義和外觀強(qiáng)大的泛化能力:處理多種輸入風(fēng)格,包括逼真的圖像、卡通和素描穩(wěn)健的性能:即使對(duì)于具有...
6天前 1233瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
由浙江大學(xué)、斯坦福大學(xué)等聯(lián)合提出的DiffLocks,給定一張RGB圖像,DiffLocks使用擴(kuò)散模型生成精確的3D發(fā)束。該模型基于一個(gè)包含RGB圖像和相應(yīng)3D發(fā)束的新型合成頭發(fā)數(shù)據(jù)集進(jìn)行訓(xùn)練。相關(guān)鏈接論文:https:arxiv.orgpdf2505.06166主頁(yè):https:radualexandru.github.iodifflocks代碼:https:github.comMeshcapadedifflocks數(shù)據(jù)集:https:difflocks.is.tue.mpg.deindex.html論文介紹我們致力于從單張圖像重建頭發(fā)的三維幾何結(jié)構(gòu),由...
6天前 449瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在圖像編輯與生成領(lǐng)域,基于指令的編輯和主題驅(qū)動(dòng)的生成雖有進(jìn)展,但存在局限。前者依賴語(yǔ)言指令難捕捉細(xì)節(jié),后者局限于具體物體組合。由香港中文大學(xué)、香港科技大學(xué)、香港大學(xué)及字節(jié)跳動(dòng)提出的基于多模態(tài)指令的編輯和生成任務(wù)DreamOmni2,支持文本與圖像指令,拓展至抽象概念。通過三步數(shù)據(jù)合成流程解決數(shù)據(jù)創(chuàng)建難題,采用索引編碼等方案優(yōu)化模型框架,還提出全面基準(zhǔn)測(cè)試。實(shí)驗(yàn)顯示DreamOmni2成果斐然,模型和代碼即將發(fā)布,...
6天前 753瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片與GLM4.5相比,GLM4.6帶來了幾項(xiàng)關(guān)鍵改進(jìn):更長(zhǎng)的上下文窗口:上下文窗口已從128K擴(kuò)展到200K個(gè)標(biāo)記,使模型能夠處理更復(fù)雜的代理任務(wù)。卓越的編碼性能:該模型在代碼基準(zhǔn)測(cè)試中取得更高的分?jǐn)?shù),并在ClaudeCode、Cline、RooCode和KiloCode等應(yīng)用程序中展現(xiàn)出更佳的實(shí)際性能,包括在生成視覺精美的前端頁(yè)面方面的改進(jìn)。高級(jí)推理:GLM4.6推理性能明顯提升,并支持推理過程中的工具使用,整體能力更強(qiáng)。更強(qiáng)大的代理:GLM4.6在...
2025-10-15 00:53:08 1946瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
HunyuanPromptEnhancer是一款基于騰訊混元模型構(gòu)建的提示符重寫工具。它可以在保留原始意圖的同時(shí)重構(gòu)輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務(wù)。保留關(guān)鍵元素(主題動(dòng)作數(shù)量樣式布局關(guān)系屬性文本等)的意圖。鼓勵(lì)“總體細(xì)節(jié)總結(jié)”的敘述,首先描述主要元素,然后描述次要背景元素,最后以簡(jiǎn)潔的風(fēng)格類型總結(jié)。具有優(yōu)雅回退的強(qiáng)大輸出解析:優(yōu)先考慮...;如果缺失,則刪除...并提取干凈的文...
2025-10-15 00:47:32 3347瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
字節(jié)提出的XStreamer是一個(gè)端到端的多模態(tài)人像世界建??蚣?,用于從單一肖像構(gòu)建可無限流式傳輸?shù)臄?shù)字人,并能夠生成跨文本、語(yǔ)音和視頻的智能、實(shí)時(shí)、多輪響應(yīng)。XStreamer為交互式數(shù)字人的統(tǒng)一世界建模鋪平了道路。XStreamer提供音素級(jí)唇部同步,同時(shí)在整個(gè)視聽交互過程中保持遠(yuǎn)程對(duì)話記憶和視覺一致性。無限流式生成XStreamer能夠在單一統(tǒng)一架構(gòu)內(nèi)實(shí)現(xiàn)跨文本、語(yǔ)音和視頻的無限交互。長(zhǎng)對(duì)話上下文與智能交互XStreamer可容納多...
2025-10-15 00:45:13 2660瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
由復(fù)旦大學(xué)、微軟亞洲研究院、西安交通大學(xué)以及騰訊混元聯(lián)合提出的StableAvatar是首個(gè)端到端視頻擴(kuò)散轉(zhuǎn)換器,它以參考圖像和音頻為條件,無需任何后處理即可合成無限長(zhǎng)度的高質(zhì)量音頻驅(qū)動(dòng)的頭像視頻。StableAvatar生成的音頻驅(qū)動(dòng)頭像視頻,展現(xiàn)了其合成無限長(zhǎng)且身份保留視頻的強(qiáng)大能力。視頻時(shí)長(zhǎng)超過3分鐘(FPS30)。FrameX表示合成頭像視頻的第X幀。效果展示所有動(dòng)畫均由StableAvatar直接合成,無需使用任何后處理工具,例如換...
2025-09-29 07:19:22 3464瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
視頻世界模型(VideoWorldModels)旨在通過預(yù)測(cè)環(huán)境未來狀態(tài),實(shí)現(xiàn)智能體的規(guī)劃與控制。然而,傳統(tǒng)方法面臨兩大挑戰(zhàn):數(shù)據(jù)依賴:大規(guī)模標(biāo)注視頻數(shù)據(jù)獲取成本高,且需包含動(dòng)作信息。任務(wù)依賴:動(dòng)作空間與任務(wù)強(qiáng)相關(guān),泛化能力受限。核心貢獻(xiàn):DINOWorld是一種基于DINOv2隱空間的視頻世界模型,通過“預(yù)訓(xùn)練+微調(diào)”兩階段框架,實(shí)現(xiàn):高效預(yù)訓(xùn)練:在未標(biāo)注視頻數(shù)據(jù)上學(xué)習(xí)通用時(shí)空動(dòng)態(tài)。動(dòng)作條件微調(diào):少量標(biāo)注數(shù)據(jù)即可適配具體任...
2025-09-29 06:59:31 2603瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
南洋理工大學(xué)SLab與NetflixEyelineStudios研究者合作,提出全新推理范式CineScale,以解決視覺擴(kuò)散模型生成高分辨率圖像和視頻的核心難題。受訓(xùn)練數(shù)據(jù)和計(jì)算資源限制,多數(shù)開源擴(kuò)散模型在低分辨率訓(xùn)練,生成高分辨率內(nèi)容時(shí)問題頻出。CineScale通過無需或極少量微調(diào)的推理技巧,釋放預(yù)訓(xùn)練模型潛力,實(shí)現(xiàn)無需微調(diào)生成8K圖像、極少量LoRA微調(diào)生成4K視頻,還將高分辨率生成能力從文生圖、文生視頻擴(kuò)展到更具挑戰(zhàn)的圖生視頻和視頻生...
2025-09-29 06:54:20 2104瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天給大家介紹的FLOAT是一種基于流匹配的音頻驅(qū)動(dòng)的說話肖像視頻生成方法,可以增強(qiáng)語(yǔ)音驅(qū)動(dòng)的情感運(yùn)動(dòng)。該方法唇形同步質(zhì)量高,生成速度還很快。6秒音頻完美生成語(yǔ)音口型表情。情緒轉(zhuǎn)移由于FLOAT是基于語(yǔ)音驅(qū)動(dòng)的情緒標(biāo)簽進(jìn)行訓(xùn)練的,因此它可以在推理階段重新定向說話人像的情緒。具體來說,我們可以用一個(gè)簡(jiǎn)單的獨(dú)熱情緒標(biāo)簽來處理預(yù)測(cè)的語(yǔ)音驅(qū)動(dòng)情緒標(biāo)簽,然后通過無分類器的矢量場(chǎng)進(jìn)一步細(xì)化該標(biāo)簽。這使得用戶即使在駕駛...
2025-09-18 07:02:36 2619瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
HunyuanPromptEnhancer是一款基于騰訊混元模型構(gòu)建的提示符重寫工具。它可以在保留原始意圖的同時(shí)重構(gòu)輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務(wù)。保留關(guān)鍵元素(主題動(dòng)作數(shù)量樣式布局關(guān)系屬性文本等)的意圖。鼓勵(lì)“總體細(xì)節(jié)總結(jié)”的敘述,首先描述主要元素,然后描述次要背景元素,最后以簡(jiǎn)潔的風(fēng)格類型總結(jié)。具有優(yōu)雅回退的強(qiáng)大輸出解析:優(yōu)先考慮...;如果缺失,則刪除...并提取干凈的文...
2025-09-18 07:01:38 3114瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
伊利諾伊大學(xué)香檳分校提出的InstantEdit是一個(gè)只需幾步即可完成的圖像編輯框架,能夠高效精準(zhǔn)地進(jìn)行文本引導(dǎo)的圖像編輯。該方法基于分段修正流模型,只需幾步即可實(shí)現(xiàn)精準(zhǔn)編輯。主要功能包括:免訓(xùn)練:無需微調(diào)。開箱即用,可立即編輯。精確控制:與同類的幾步編輯方法相比,在保持圖像一致性的同時(shí)實(shí)現(xiàn)了更好的可編輯性。多功能應(yīng)用:支持各種編輯任務(wù),包括對(duì)象操作、樣式轉(zhuǎn)換和屬性修改下圖為InstantEdit的示例,僅需4個(gè)步驟...
2025-09-05 00:13:18 1293瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
SeedDiffusionPreview是字節(jié)跳動(dòng)種子團(tuán)隊(duì)推出的文本擴(kuò)散語(yǔ)言模型,旨在驗(yàn)證離散擴(kuò)散方法作為下一代語(yǔ)言模型基礎(chǔ)框架的可行性,以結(jié)構(gòu)化代碼生成為實(shí)驗(yàn)領(lǐng)域。團(tuán)隊(duì)引入兩階段擴(kuò)散訓(xùn)練、約束序?qū)W習(xí)等多項(xiàng)關(guān)鍵技術(shù),經(jīng)實(shí)驗(yàn)驗(yàn)證有效。結(jié)果顯示,該模型代碼推理速度達(dá)2146個(gè)tokens,較同等規(guī)模自回歸模型提升5.4倍,且在多個(gè)核心代碼基準(zhǔn)測(cè)試中性能相當(dāng),在推理速度、生成質(zhì)量上建立新的SOTA,有力證明了方法的有效性。相關(guān)鏈接博客:s...
2025-09-05 00:10:41 2015瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
由高德、北大聯(lián)合推出的統(tǒng)一框架OmniEffects創(chuàng)新性地采用LoRAMoE混合專家架構(gòu),將多種特效無縫集成至統(tǒng)一模型,有效規(guī)避了跨任務(wù)干擾;同時(shí)通過空間感知提示SAP與獨(dú)立信息流模塊的協(xié)同作用,實(shí)現(xiàn)了對(duì)特效空間位置的精準(zhǔn)把控,防止了控制信號(hào)的混雜。此外還精心構(gòu)建了OmniVFX數(shù)據(jù)集與專用評(píng)估框架,為框架的性能驗(yàn)證提供了堅(jiān)實(shí)支撐。實(shí)驗(yàn)結(jié)果顯示,OmniEffects能精準(zhǔn)控制特效位置,并生成豐富多樣的特效,為電影特效制作帶來了革...
2025-09-05 00:09:19 1245瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在虛擬試穿(VTON)領(lǐng)域,現(xiàn)有研究多聚焦于服裝,這在一定程度上限制了其應(yīng)用范圍。浙江大學(xué)團(tuán)隊(duì)提出了一個(gè)統(tǒng)一框架OmniTry,該框架將VTON的應(yīng)用范疇拓展至服裝之外的各類可穿戴物品,像珠寶、配飾等,還提供無蒙版設(shè)置以貼合實(shí)際應(yīng)用場(chǎng)景。面對(duì)擴(kuò)展物品類型時(shí)數(shù)據(jù)管理獲取配對(duì)圖像的難題,團(tuán)隊(duì)設(shè)計(jì)了獨(dú)特的兩階段流程,巧妙利用大規(guī)模未配對(duì)圖像和少量配對(duì)圖像訓(xùn)練微調(diào)模型。經(jīng)基于綜合基準(zhǔn)的評(píng)估,OmniTry在物體定位和身份保...
2025-08-26 07:26:29 1892瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
2025年8月21日,DeepSeekV3.1正式發(fā)布。它采用混合推理架構(gòu),一個(gè)模型支持思考與非思考兩種模式。相比前代,DeepSeekV3.1Think思考效率大幅提升,能更快作答。經(jīng)PostTraining優(yōu)化,其Agent能力增強(qiáng),工具使用和智能體任務(wù)表現(xiàn)更出色。官方App與網(wǎng)頁(yè)端同步升級(jí),用戶用“深度思考”按鈕就能切換模式。DeepSeekAPI也同步更新,deepseekchat和deepseekreasoner對(duì)應(yīng)不同模式,上下文擴(kuò)至128K,還支持strict模式FunctionCalling。Dee...
2025-08-26 07:23:03 1.0w瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GroundingBooth是一個(gè)用于文本到圖像的接地定制框架。首先提取文本描述和圖像的特征,然后通過一種特殊的注意力機(jī)制來控制這些特征的結(jié)合。這個(gè)機(jī)制就像是一個(gè)精密的篩子,確保每個(gè)對(duì)象和背景之間的信息不會(huì)混淆。比如,如果你想要在一個(gè)特定的地方放一個(gè)玩具和一棵樹,系統(tǒng)會(huì)確保玩具和樹都被放在你指定的位置,而不會(huì)因?yàn)楸尘暗母蓴_而位置錯(cuò)亂。這樣,用戶就可以得到既符合要求又美觀的定制圖像。GroundingBooth支持:(a)接地...
2025-08-13 06:48:13 1062瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
本研究針對(duì)單幅圖像的6D物體姿態(tài)估計(jì)任務(wù),提出了一種無需已知物體姿態(tài)的快速準(zhǔn)確估計(jì)流程。首先利用單視圖3D生成技術(shù)構(gòu)建高保真紋理網(wǎng)格,通過由粗到精的對(duì)齊模塊解決尺度模糊問題,結(jié)合2D3D特征與深度信息實(shí)現(xiàn)初始姿態(tài)估計(jì)。為解決數(shù)據(jù)稀缺問題,引入文本引導(dǎo)的生成式增強(qiáng)技術(shù)生成多樣化3D模型,并通過Blender渲染合成大規(guī)模領(lǐng)域隨機(jī)化訓(xùn)練數(shù)據(jù),顯著提升模型泛化能力。實(shí)驗(yàn)表明,該方法在多個(gè)基準(zhǔn)測(cè)試中取得最優(yōu)性能,并在新...
2025-08-13 06:41:30 2538瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在ICML25上,快手、上交聯(lián)合提出統(tǒng)一多模態(tài)生成理解模型Orthus——基于自回歸Transformer的無損圖文交錯(cuò)生成新范式。Orthus不僅在多個(gè)視覺理解指標(biāo)上超越了Chameleon和Showo等競(jìng)爭(zhēng)模型,還在圖像編輯、圖文交錯(cuò)生成等任務(wù)上展現(xiàn)了強(qiáng)大的能力。目前代碼已開源。Orthus是一個(gè)統(tǒng)一的多模態(tài)模型,在AR建模原則下處理離散文本標(biāo)記和無損連續(xù)圖像特征。與現(xiàn)有技術(shù)不同,Orthus首次同時(shí)享有以下三大優(yōu)勢(shì):?jiǎn)蝹€(gè)變壓器內(nèi)AR和擴(kuò)散的統(tǒng)一建...
2025-08-13 06:34:09 3875瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
由北京人工智能研究院提出的OmniGen2是一個(gè)統(tǒng)一的多模態(tài)生成模型,它將強(qiáng)大的視覺理解、文本到圖像的合成、基于指令的圖像編輯以及主題驅(qū)動(dòng)的上下文生成功能整合在一個(gè)框架內(nèi)。它基于解耦架構(gòu),在保留高質(zhì)量語(yǔ)言模型的同時(shí),實(shí)現(xiàn)了細(xì)粒度且一致的視覺輸出。除了生成功能之外,OmniGen2還集成了多模態(tài)反射機(jī)制,使其能夠分析、評(píng)估并迭代優(yōu)化其輸出,從而將推理和自我修正功能引入圖像生成過程。憑借在生成和理解任務(wù)中均表現(xiàn)出...
2025-07-28 01:19:03 4903瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 2.2w 人氣
獲得 0 個(gè)點(diǎn)贊
獲得 0 次收藏