偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟Phi-4家族新增兩位成員,5.6B多模態(tài)單任務(wù)超GPT-4o,3.8B小模型媲美千問7B

人工智能 新聞
Phi-4-Multimodal 模型的預(yù)訓(xùn)練階段涉及豐富多樣的數(shù)據(jù)集,視覺 - 語言訓(xùn)練數(shù)據(jù)包含 0.5T 圖像 - 文本文檔、OCR 數(shù)據(jù)、圖表理解等;語音相關(guān)的訓(xùn)練數(shù)據(jù)涵蓋真實和合成數(shù)據(jù),使用內(nèi)部 ASR 模型轉(zhuǎn)錄音頻并計算原始文本與轉(zhuǎn)錄之間的詞錯率(WER)來衡量合成語音的質(zhì)量。

動輒百億、千億參數(shù)的大模型正在一路狂奔,但「小而美」的模型也在閃閃發(fā)光。

2024 年底,微軟正式發(fā)布了 Phi-4—— 在同類產(chǎn)品中表現(xiàn)卓越的小型語言模型(SLM)。僅用了 40% 合成數(shù)據(jù),140 億參數(shù)的 Phi-4 就在數(shù)學(xué)性能上擊敗了 GPT-4o。

剛剛,微軟又隆重介紹了 Phi-4 模型家族的兩位新成員:Phi-4-multimodal (多模態(tài)模型)和 Phi-4-mini(語言模型)。Phi-4-multimodal 改進(jìn)了語音識別、翻譯、摘要、音頻理解和圖像分析,而 Phi-4-mini 專為速度和效率而設(shè)計,兩者都可供智能手機(jī)、PC 和汽車上的開發(fā)人員使用。

截屏2025-02-27 09.46.44.png

項目地址:https://huggingface.co/microsoft/phi-4

在技術(shù)報告中,微軟對這兩個模型進(jìn)行了更加詳細(xì)的介紹。

  • Phi-4-Multimodal 是一個多模態(tài)模型,它將文本、視覺和語音 / 音頻輸入模態(tài)整合到一個模型中。它采用新穎的模態(tài)擴(kuò)展方法,利用 LoRA 適配器和特定模態(tài)路由器,實現(xiàn)了多種推理模式的無干擾結(jié)合。例如,盡管語音 / 音頻模態(tài)的 LoRA 組件只有 46 億參數(shù),但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(視覺 + 語言)、(視覺 + 語音)和(語音 / 音頻)輸入的場景,在各種任務(wù)中的表現(xiàn)均優(yōu)于此前的大型視覺 - 語言模型和語音 - 語言模型。
  • Phi-4-Mini 是一個擁有 38 億參數(shù)的語言模型,在高質(zhì)量的網(wǎng)絡(luò)和合成數(shù)據(jù)上進(jìn)行了訓(xùn)練,其性能明顯優(yōu)于近期類似規(guī)模的開源模型,并在需要復(fù)雜推理的數(shù)學(xué)和編碼任務(wù)上與兩倍于其規(guī)模的模型不相上下。這一成就得益于精心設(shè)計的合成數(shù)據(jù)配方,該配方強(qiáng)調(diào)高質(zhì)量的數(shù)學(xué)和編碼數(shù)據(jù)集。與上一代產(chǎn)品 Phi-3.5-Mini 相比,Phi-4-Mini 的詞匯量擴(kuò)大到了 20 萬個,從而能更好地支持多語言應(yīng)用,同時還采用了分組查詢功能,從而能更高效地生成長序列。

Phi-4-Multimodal 是這家公司的首個多模態(tài)語言模型,微軟表示:「Phi-4-multimodal 標(biāo)志著我們?nèi)斯ぶ悄馨l(fā)展的一個新里程碑。

此外,微軟還進(jìn)一步訓(xùn)練了 Phi-4-Mini 以增強(qiáng)其推理能力。結(jié)果顯示,它與 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等規(guī)模更大的先進(jìn)推理系統(tǒng)相媲美。

image.png

接下來,讓我們看看技術(shù)細(xì)節(jié)。

模型架構(gòu)

兩個模型都使用 tokenizer o200k base tiktoken ,詞匯量為 200,064 個,旨在更高效地支持多語言和多模態(tài)輸入和輸出。所有模型都基于僅解碼器的 Transformer,并支持基于 LongRoPE 的 128K 上下文長度。

語言模型架構(gòu)

Phi-4-mini 由 32 層 Transformer 組成,專為速度和效率而設(shè)計,Phi-4-Mini 還有一些特殊的「省內(nèi)存」技巧:

首先是分組查詢注意力機(jī)制(GQA),模型在處理長序列時能夠快速地聚焦于關(guān)鍵信息片段。這優(yōu)化了長上下文生成時的 KV 緩存。具體來說,模型使用 24 個查詢頭和 8 個 K/V 頭,將 KV 緩存消耗減少到標(biāo)準(zhǔn)大小的三分之一。

其次是輸入 / 輸出嵌入綁定技術(shù),實現(xiàn)了資源的優(yōu)化利用,同時與 Phi-3.5 相比提供了更廣泛的 20 萬詞匯覆蓋。

此外,在 RoPE 配置中,使用了分?jǐn)?shù) RoPE 維度,確保 25% 的注意力頭維度與位置無關(guān)。這種設(shè)計能讓模型更平滑地處理較長的上下文。

Phi-4-Mini 峰值學(xué)習(xí)率的計算公式為:

LR*(D) = BD^(-0.32),

其中 B 是超參數(shù),D 是訓(xùn)練 token 的總數(shù),通過調(diào)整 D = 12.5B、25B、37.5B 和 50B 來擬合 B 值。

多模態(tài)模型架構(gòu)

Phi-4-Multimodal 采用了「Mixture of LoRA」技術(shù),通過整合特定模態(tài)的 LoRAs 來實現(xiàn)多模態(tài)功能,同時完全凍結(jié)基礎(chǔ)語言模型。該技術(shù)優(yōu)于現(xiàn)有方法,并在多模態(tài)基準(zhǔn)上實現(xiàn)了與完全微調(diào)模型相當(dāng)?shù)男阅?。此外,Phi-4-Multimodal 的設(shè)計具有高度可擴(kuò)展性,允許無縫集成新的 LoRA,以支持更多模態(tài),而不會影響現(xiàn)有模態(tài)。

該模型的訓(xùn)練過程由多個階段組成,包括語言訓(xùn)練(包括預(yù)訓(xùn)練和后訓(xùn)練),然后將語言骨干擴(kuò)展到視覺和語音 / 音頻模態(tài)。

對于語言模型,研究者使用高質(zhì)量、推理豐富的文本數(shù)據(jù)來訓(xùn)練 Phi-4-Mini。值得注意的是,他們加入了精心策劃的高質(zhì)量代碼數(shù)據(jù)集,以提高編碼任務(wù)的性能。

語言模型訓(xùn)練完成后,研究者凍結(jié)了語言模型,并實施「Mixture of LoRA」技術(shù),繼續(xù)多模態(tài)訓(xùn)練階段。

具體來說,在訓(xùn)練特定模態(tài)編碼器和投影器的同時,還訓(xùn)練了兩個額外的 LoRA 模塊,以實現(xiàn)與視覺相關(guān)的任務(wù)(如視覺 - 語言和視覺 - 語音)和與語音 / 音頻相關(guān)的任務(wù)(如語音 - 語言)。它們都包含預(yù)訓(xùn)練和后訓(xùn)練階段,分別用于模態(tài)對齊和指令微調(diào)。

截屏2025-02-27 09.55.24.png

Phi-4-Multimodal 模型架構(gòu)。

性能評估

Phi-4-multimodal

雖然 Phi-4-multimodal 只有 5.6B 參數(shù),但它將語音、視覺和文本處理無縫集成到一個統(tǒng)一的架構(gòu)中,所有這些模態(tài)都在同一個表征空間內(nèi)同時處理。

Phi-4 多模態(tài)能夠同時處理視覺和音頻。下表顯示了在圖表 / 表格理解和文檔推理任務(wù)中,當(dāng)視覺內(nèi)容的輸入查詢?yōu)楹铣烧Z音時的模型質(zhì)量。與其他可以將音頻和視覺信號作為輸入的現(xiàn)有最先進(jìn)的全方位模型相比,Phi-4 多模態(tài)模型在多個基準(zhǔn)測試中取得了更強(qiáng)的性能。

image.png

圖 1:所列基準(zhǔn)包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。進(jìn)行對比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。

Phi-4-multimodal 在語音相關(guān)任務(wù)中表現(xiàn)出了卓越的能力。它在自動語音識別 (ASR) 和語音翻譯 (ST) 方面都優(yōu)于 WhisperV3 和 SeamlessM4T-v2-Large 等專業(yè)模型。該模型以令人印象深刻的 6.14% 的單詞錯誤率在 Huggingface OpenASR 排行榜上名列前茅,超過了 2025 年 2 月之前的最佳表現(xiàn) 6.5%。此外,它是少數(shù)幾個成功實現(xiàn)語音摘要并達(dá)到與 GPT-4o 模型相當(dāng)?shù)男阅芩降拈_放模型之一。該模型在語音問答 (QA) 任務(wù)上與 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因為模型尺寸較小導(dǎo)致保留事實 QA 知識的能力較弱。

image.png

圖 2:Phi-4 多模態(tài)語音基準(zhǔn)。

在下方視頻中,Phi-4-multimodal 分析了語音輸入并幫助規(guī)劃西雅圖之旅:

Phi-4-multimodal 同樣在各種基準(zhǔn)測試中都表現(xiàn)出了卓越的視覺能力,最顯著的是在數(shù)學(xué)和科學(xué)推理方面取得了優(yōu)異的表現(xiàn)。盡管規(guī)模較小,但該模型在通用多模態(tài)能力(如文檔和圖表理解、光學(xué)字符識別 (OCR) 和視覺科學(xué)推理)方面仍保持著極具競爭性的表現(xiàn),與 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相當(dāng)或超過它們。

image.png

Phi-4-multimodal 展示了強(qiáng)大的推理和邏輯能力,適合分析任務(wù)。參數(shù)量更小也使得微調(diào)或定制更容易且更實惠。下表中展示了 Phi-4-multimodal 的微調(diào)場景示例。

下方視頻展示了 Phi-4-multimodal 的推理能力:

Phi-4-mini:3.8B,小身材大能量

Phi-4-Mini 和 Phi-4-Multimodal 共享同一個語言模型骨干網(wǎng)絡(luò)。Phi-4-mini 雖然體積小巧,但它承襲了 Phi 系列前作的傳統(tǒng),在推理、數(shù)學(xué)、編程、指令遵循和函數(shù)調(diào)用等任務(wù)上超越了更大的模型。

Phi-4-mini 在各種測試集中和較小模型的成績對比

更重要的是,開發(fā)者們可以基于 Phi-4-mini 構(gòu)建出一個可擴(kuò)展的智能體系統(tǒng),它可以借函數(shù)調(diào)用、指令跟隨、長上下文處理以及推理能力來訪問外部知識,從而彌補(bǔ)自身參數(shù)量有限的不足。

通過標(biāo)準(zhǔn)化協(xié)議,Phi-4-mini 的函數(shù)調(diào)用可以與結(jié)構(gòu)化的編程接口無縫集成。當(dāng)用戶提出請求時,Phi-4-mini 能夠?qū)Σ樵冞M(jìn)行分析,識別并調(diào)用相關(guān)的函數(shù)以及合適的參數(shù),接收函數(shù)輸出的結(jié)果,并將這些結(jié)果整合到最終的回應(yīng)之中。

在設(shè)置合適的數(shù)據(jù)源、API 和流程之后,Phi-4-mini 可以部署在你家,當(dāng)你的智能家居助手,幫你查看監(jiān)控有沒有異常。

基于 Phi-4-mini 的家居智能體

通過標(biāo)準(zhǔn)化協(xié)議,函數(shù)調(diào)用使得模型可以與結(jié)構(gòu)化的編程接口無縫集成。當(dāng)用戶提出請求時,Phi-4-mini 可以對查詢進(jìn)行分析,識別并調(diào)用相關(guān)的函數(shù)以及合適的參數(shù),接收函數(shù)輸出的結(jié)果,并將這些結(jié)果整合到最終的回應(yīng)之中。這樣一來,就構(gòu)建了一個可擴(kuò)展的基于智能體的系統(tǒng),借助定義良好的函數(shù)接口,模型能夠連接到外部工具、應(yīng)用程序接口(API)以及數(shù)據(jù)源,進(jìn)而增強(qiáng)自身的能力。下面的例子就模擬了 Phi-4-mini 控制智能家居的場景。

因為體積較小,Phi-4-mini 和 Phi-4-multimodal 模型可以在計算資源有限的環(huán)境中使用,尤其是在用 ONNX Runtime 優(yōu)化后。

訓(xùn)練數(shù)據(jù)

Phi-4-mini 性能明顯優(yōu)于近期類似規(guī)模的開源模型,有一個重要原因就是高質(zhì)量的訓(xùn)練數(shù)據(jù)。

相比上一代 Phi-3.5-Mini,研究人員選擇了更嚴(yán)格的數(shù)據(jù)過濾策略,加入了針對性的數(shù)學(xué)和編程訓(xùn)練數(shù)據(jù)、特殊清洗過的 Phi-4 合成數(shù)據(jù),還通過消融實驗重新調(diào)整了數(shù)據(jù)混合比例,增加推理數(shù)據(jù)的比例為模型帶來了顯著提升。

具體來說,研究人員從推理模型生成了大量合成的思維鏈(CoT)數(shù)據(jù),同時采用基于規(guī)則和基于模型的兩種篩選方法來剔除錯誤的生成結(jié)果,將正確的采樣答案標(biāo)記為首選生成,將錯誤的標(biāo)記為非首選,并創(chuàng)建 DPO 數(shù)據(jù)。

不過,這些數(shù)據(jù)僅用于實驗性推理模型,所以正式發(fā)布的 Phi-4-Mini 版本檢查點中沒有這些 CoT 數(shù)據(jù)。

在后訓(xùn)練階段,與 Phi-3.5-Mini 相比,Phi-4-Mini 使用了更大規(guī)模和更多樣化的函數(shù)調(diào)用和摘要數(shù)據(jù)。研究人員合成了大量的指令跟隨數(shù)據(jù)來增強(qiáng)模型的指令跟隨能力。

在編程方面,研究人員加入了大量的代碼補(bǔ)全數(shù)據(jù),比如要求模型在現(xiàn)有代碼片段中間生成缺失代碼的任務(wù)。這挑戰(zhàn)了模型對需求和現(xiàn)有上下文的理解能力,帶來了顯著的性能提升。

Phi-4-Multimodal 模型的預(yù)訓(xùn)練階段涉及豐富多樣的數(shù)據(jù)集,視覺 - 語言訓(xùn)練數(shù)據(jù)包含 0.5T 圖像 - 文本文檔、OCR 數(shù)據(jù)、圖表理解等;語音相關(guān)的訓(xùn)練數(shù)據(jù)涵蓋真實和合成數(shù)據(jù),使用內(nèi)部 ASR 模型轉(zhuǎn)錄音頻并計算原始文本與轉(zhuǎn)錄之間的詞錯率(WER)來衡量合成語音的質(zhì)量。

更多詳情,請訪問原項目地址。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-28 09:32:00

2024-12-23 09:38:00

2024-07-18 12:53:13

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2024-05-07 09:33:03

模型手機(jī)

2025-02-27 09:51:04

2025-01-10 12:58:37

2024-12-13 13:04:13

模型Phi-4AI

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2025-01-02 13:00:00

2024-06-11 14:30:18

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-01-06 12:46:16

模型數(shù)據(jù)訓(xùn)練

2024-12-02 14:20:00

模型訓(xùn)練

2024-04-24 12:47:17

模型AI機(jī)器人

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2024-05-30 12:50:05

2025-06-10 09:07:00

2024-06-03 10:43:34

點贊
收藏

51CTO技術(shù)棧公眾號