Mistral多模態(tài)大模型來(lái)了!120億參數(shù),原生支持任意大小/數(shù)量圖像,公司估值已達(dá)420億
Mistral的多模態(tài)大模型來(lái)了!
Pixtral 12B正式發(fā)布,同時(shí)具備語(yǔ)言和視覺(jué)處理能力。

它建立在文本模型Nemo 12B基礎(chǔ)上,包含一個(gè)專門的視覺(jué)編碼器。
大概24GB,原生支持任意數(shù)量和尺寸的圖像,大約有40層神經(jīng)網(wǎng)絡(luò)、14,336 個(gè)隱藏維度大小和32個(gè)注意力頭,以及一個(gè)專用的視覺(jué)編碼器,支持高分辨率圖像(1024×1024)處理。
發(fā)布形式還是簡(jiǎn)單直接一個(gè)種子鏈接。

現(xiàn)在可以通過(guò)鏈接、GitHub或Hugging Face下載模型。
Mistral的開發(fā)主管表示,后續(xù)也會(huì)在Chatbot上接入模型,并提供API服務(wù)。

超越Qwen、LLaVA等
雖然目前模型的訓(xùn)練數(shù)據(jù)、細(xì)節(jié)都未公開,但是通過(guò)模型代碼網(wǎng)友們發(fā)現(xiàn)了更多細(xì)節(jié)。
1、先進(jìn)架構(gòu):40層網(wǎng)絡(luò)、14336隱藏維度大小、32個(gè)注意力頭。
2、視覺(jué)能力:專用視覺(jué)編碼器,支持1024x1024圖像大小和24個(gè)隱藏層,用于高級(jí)圖像處理。
3、更大詞匯量:131072tokens,支持更細(xì)致語(yǔ)言理解和 生成。
4、使用GeLU(用于視覺(jué)適配器)和2D RoPE(用于視覺(jué)編碼器)。
5、Patch大?。?6×16像素。
6、在mistral_common中支持tokenizer。
7、模型權(quán)重bf16。

與此同時(shí),還有人在放出了Mistral發(fā)布會(huì)上公布的模型基準(zhǔn)情況。

Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了對(duì)比。
多模態(tài)知識(shí)和推理、QA等方面都表現(xiàn)不錯(cuò)。

歐洲版OpenAI估值達(dá)60億美元
最近幾個(gè)月Mistral的動(dòng)作還是非常密集的。
今年6月,他們通過(guò)股權(quán)債務(wù)融資完成約6.4億美元B輪融資。估值已達(dá)60億美元(折合人民幣約420億)。
完成融資后,他們便發(fā)布了Mistral Large 2旗艦?zāi)P汀MoE模型Mistral 8×22B以及開源模型Codestral等。
目前,微軟、AWS、Snowflake等巨頭均投資Mistral。尤其是微軟的入股,使得Mistral成為OpenAI以外,微軟Azure第二個(gè)商業(yè)閉源模型供應(yīng)商。這也進(jìn)一步夯實(shí)了Mistral“歐洲版OpenAI”的地位。















 
 
 














 
 
 
 