偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI秒懂短視頻,快手大模型Keye-VL理解力爆表!技術(shù)細(xì)節(jié)全開源

人工智能 新聞
全新多模態(tài)大語言模型Kwai Keye-VL震撼上線,展現(xiàn)了無與倫比的視頻理解力!它能將視頻內(nèi)容轉(zhuǎn)化為高能方案,還會智能選擇思考模型,效率與創(chuàng)意兼得。目前,模型已正式開源。

如果有人突然問你:「這張圖片中有幾顆草莓」?你會如何快速回復(fù)?

面對五彩繽紛的果盤,我們往往需要反復(fù)端詳,放大圖片再逐一清點,耗費不少時間才能得到答案。

然而,AI大模型正讓這種復(fù)雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗中,它自動解析圖像細(xì)節(jié),執(zhí)行圖像區(qū)域裁剪,放大相關(guān)的計算代碼以增強(qiáng)感知效果,在短短幾秒內(nèi)給出精準(zhǔn)答案,一共20顆。

圖片

Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。

該模型能深度融合和處理文本、圖像、視頻等多模態(tài)信息,憑借創(chuàng)新的自適應(yīng)交互機(jī)制與動態(tài)推理能力,致力于為用戶打造更智能、更全面的多模態(tài)交互新范式。

其中,依托快手在短視頻的深厚技術(shù)積累,Keye-VL在視頻理解方面具備得天獨厚的優(yōu)勢。

實踐出真知!現(xiàn)在就把一個介紹簡易移動房子的視頻丟給Keye-VL,考考它能不能利用強(qiáng)大的視頻理解和推理能力,當(dāng)場做出一份銷售方案來。

問題:請你為視頻中的商品寫一份推銷方案。

「看」完11秒的視頻后,Kwai Keye-VL很快便生成了一份推銷方案,覆蓋了方方面面,足以堪稱商品推銷的「優(yōu)秀模板」。

圖片

除在復(fù)雜視覺感知、視頻理解上的優(yōu)異表現(xiàn)外,Kwai Keye-VL在邏輯推理上也同樣令人驚喜,在最新的2025高考全國數(shù)學(xué)卷中,Kwai Keye-VL狂砍140分。

目前,Kwai Keye-VL已正式開源!

圖片

Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下來,讓我們一起探索支撐其強(qiáng)大多模態(tài)能力的關(guān)鍵技術(shù)突破。

核心技術(shù)架構(gòu)公開

Kwai Keye-VL基于Qwen3-8B語言模型,并整合了SigLIP初始化的視覺編碼器。

它支持動態(tài)分辨率輸入,按原始比例將圖像切分為14x14分塊,由一個MLP層整合這些視覺特征。

模型采用3D RoPE(旋轉(zhuǎn)位置編碼)統(tǒng)一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準(zhǔn)捕捉視頻時序變化。

圖片

Pre-Train:構(gòu)建多模態(tài)基座能力

Kwai Keye-VL的預(yù)訓(xùn)練階段核心目標(biāo)是,構(gòu)建強(qiáng)大的圖文和視頻理解能力(即視覺-語言對齊)。

為支撐這一目標(biāo),模型使用了總量高達(dá)600B的大規(guī)模多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集,包含圖文、視頻及純文本數(shù)據(jù)。

此外,Kwai Keye-VL通過自建高質(zhì)量中文OCR系統(tǒng)和精細(xì)化描述數(shù)據(jù),有效突破了開源數(shù)據(jù)的局限,專門服務(wù)于模型圖文/視頻理解能力的訓(xùn)練。

訓(xùn)練流程采用四階段漸進(jìn)式優(yōu)化策略:

圖片

  • 視覺預(yù)訓(xùn)練: 持續(xù)預(yù)訓(xùn)練視覺編碼器,使其適配內(nèi)部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。
  • 跨模態(tài)對齊: 凍結(jié)主干模型,僅訓(xùn)練輕量級MLP適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關(guān)系。
  • 多任務(wù)預(yù)訓(xùn)練: 解鎖全部模型參數(shù),進(jìn)行多任務(wù)聯(lián)合訓(xùn)練,全面提升模型的綜合視覺理解能力。
  • 退火訓(xùn)練: 使用精選高質(zhì)量數(shù)據(jù)進(jìn)行精調(diào),進(jìn)一步提升模型的精細(xì)理解和判別能力。

最后,Kwai Keye-VL探索了同構(gòu)異質(zhì)融合技術(shù),通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓(xùn)練模型,在保留多維度能力的同時,減小模型偏差,增強(qiáng)了模型的魯棒性。

Post-Train:兩階段精細(xì)微調(diào),突破性強(qiáng)化推理能力

Kwai Keye-VL的后訓(xùn)練階段經(jīng)過精心設(shè)計,旨在全面提升模型的性能,尤其是其在復(fù)雜任務(wù)中的推理能力,這一部分是模型實現(xiàn)高級認(rèn)知功能的關(guān)鍵突破。

Stage I. 非推理訓(xùn)練(No-Reasoning Training):夯實基礎(chǔ)性能

Kwai Keye-VL首先進(jìn)行監(jiān)督微調(diào)(SFT),使用500萬條高質(zhì)量多模態(tài)VQA數(shù)據(jù),數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務(wù)體系(包含7W種任務(wù))保證,數(shù)據(jù)質(zhì)量經(jīng)AI篩選困難樣本及人工標(biāo)注保障;

隨后進(jìn)行混合偏好優(yōu)化(MPO),結(jié)合開源數(shù)據(jù)與自建的偏好數(shù)據(jù),后者通過收集SFT錯誤樣本作提問素材、Qwen2.5VL 72B與SFT模型生成答案對、人工排序獲得。

圖片

Stage II. 推理訓(xùn)練(Reasoning Training):核心突破,賦能復(fù)雜認(rèn)知

此階段是Kwai Keye-VL訓(xùn)練流程的最大亮點與貢獻(xiàn),通過引入Mix-mode的思維鏈(CoT)和多思考模式強(qiáng)化學(xué)習(xí)(RL)機(jī)制,顯著提升模型的多模態(tài)感知、推理和think with image能力,使其能夠處理更復(fù)雜、需要多步思考的任務(wù)。

思維鏈冷啟動階段(CoT Cold-Start) 通過混合四種推理模式的訓(xùn)練數(shù)據(jù),實現(xiàn)對模型思維鏈能力的零基礎(chǔ)激活,使其初步掌握人類分步思考的推理范式。

混合強(qiáng)化學(xué)習(xí)階段(CoT-Mix RL) 在冷啟動基礎(chǔ)上,采用GRPO算法進(jìn)行混合模式強(qiáng)化學(xué)習(xí),通過創(chuàng)新的雙軌獎勵機(jī)制(同步評估結(jié)果正確性與過程一致性)深度優(yōu)化多模態(tài)感知、數(shù)學(xué)推理、短視頻理解及智能體協(xié)同等綜合能力,顯著提升模型的推理能力。

多輪迭代對齊階段(Iterative Alignment) 利用MPO算法對優(yōu)劣數(shù)據(jù)對進(jìn)行多輪迭代,根治內(nèi)容重復(fù)崩潰與邏輯斷層問題,最終賦予模型根據(jù)問題復(fù)雜度智能選擇深度推理模式的自適應(yīng)能力,實現(xiàn)性能與穩(wěn)定性的雙重突破。

Kwai Keye-VL通過分階段、精細(xì)化的預(yù)訓(xùn)練與后訓(xùn)練策略,特別是對推理能力的深度強(qiáng)化與創(chuàng)新性突破,確保了模型在多種復(fù)雜場景下都能提供高質(zhì)量、邏輯嚴(yán)謹(jǐn)且穩(wěn)定的輸出。

訓(xùn)練架構(gòu)優(yōu)化:高效穩(wěn)定的百億參數(shù)模型訓(xùn)練

為實現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓(xùn)練,Kwai Keye-VL通過混合并行策略(整合數(shù)據(jù)并行/序列并行/ZeRO技術(shù))顯著提升訓(xùn)練吞吐量,既利用顯存分片降低壓力,又通過計算通信重疊隱藏延遲。

不同于純文本模型訓(xùn)練,多模態(tài)輸入分辨率差異很大,不同顯卡計算負(fù)載不均會導(dǎo)致整體利用率降低,Kwai Keye-VL在訓(xùn)練框架中實現(xiàn)了全局負(fù)載均衡策略,依據(jù)樣本FLOPS動態(tài)分發(fā)樣本,盡可能消除硬件閑置,顯著提高了多模態(tài)訓(xùn)練的MFU。創(chuàng)新性構(gòu)建樣本級自動容錯機(jī)制,依托聯(lián)合檢查點技術(shù)使訓(xùn)練意外中斷后可自動精準(zhǔn)續(xù)訓(xùn)無需人工介入。

后訓(xùn)練階段通過升級vLLM框架加速采樣,并部署多獎勵模型隨機(jī)分發(fā)策略,大幅壓縮強(qiáng)化學(xué)習(xí)的計算耗時,系統(tǒng)性保障了大規(guī)模訓(xùn)練的穩(wěn)定性與效率。

模型評估

· 視覺理解/邏輯推理Benchmark

Kwai Keye-VL在綜合感知能力比肩同規(guī)模頂尖模型的同時,在復(fù)雜推理任務(wù)中展現(xiàn)出顯著領(lǐng)先優(yōu)勢。

評測數(shù)據(jù)顯示:其基礎(chǔ)感知達(dá)行業(yè)一流水準(zhǔn);而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領(lǐng)跑業(yè)界,尤其在需要高階邏輯推理與數(shù)學(xué)解題的挑戰(zhàn)性任務(wù)中,凸顯出卓越的復(fù)雜問題解決能力。

圖片

· 視頻理解Benchmark

Kwai Keye-VL通過公開與自建評測雙驗證,在學(xué)術(shù)標(biāo)準(zhǔn)與真實短視頻場景中均展現(xiàn)出全面領(lǐng)先優(yōu)勢。

為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務(wù)單一性等問題,快手構(gòu)建了內(nèi)部評測集KC-MMBench。

結(jié)果顯示,該模型在VideoMME等權(quán)威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);在內(nèi)部短視頻場景評測中優(yōu)勢進(jìn)一步擴(kuò)大,綜合得分領(lǐng)先SOTA模型超10%,尤其在熱點聚合、內(nèi)容合集、廣告價值等核心場景表現(xiàn)卓越,實證其學(xué)術(shù)與產(chǎn)業(yè)雙維競爭力。

圖片

當(dāng)大模型的風(fēng)暴席卷交互的疆界,重塑我們認(rèn)知與交互的方式,Kwai Keye-VL——這顆由快手精心鍛造的視覺-語言「智能火種」,正在視頻理解的沃土上,燃起一場顛覆性的燎原之火!

這亦是Keye注入時代的核心動能,一場始于理解、終于交互的智能覺醒!

此刻,就讓我們以一首詩,為這段探索的華章作結(jié),跟隨Keye的視角,感受智能之眼所洞見的壯闊未來……

提問:結(jié)合如下這張圖片,寫一首詩

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-11-20 22:02:54

開源模型

2024-01-24 13:17:00

AI技術(shù)

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡(luò)

2021-06-09 15:52:36

快手短視頻

2023-06-25 10:19:49

模型論文

2021-06-11 21:46:31

RocketMQ數(shù)據(jù)JSON

2015-04-13 10:12:08

Windows容器技術(shù)Nano Server

2022-12-07 09:49:34

AI模型

2025-10-16 09:00:00

2018-12-17 16:34:02

華為云

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網(wǎng)絡(luò)PON接入網(wǎng)技術(shù)

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2019-05-06 10:51:49

總監(jiān)技術(shù)場景

2024-01-16 17:17:30

模型訓(xùn)練

2019-05-13 08:51:53

總監(jiān)技術(shù)CTO

2013-06-26 09:42:25

技術(shù)服務(wù)器內(nèi)存虛擬化

2017-11-10 08:35:06

存儲FCoE網(wǎng)絡(luò)
點贊
收藏

51CTO技術(shù)棧公眾號