Meta開源多模態(tài)模型——Llama 3.2
Meta開源了首個多模態(tài)大模型Llama-3.2,這是Llama-3系列的一次重大升級,一共有4個版本。
Llama 3.2 1B、3B是整個系列最輕量級的模型,適合邊緣設備和移動應用程序的檢索和摘要,可用于個人信息管理和多語言知識檢索等,支持 128k標記的上下文長度,可在手機、平板電腦等設備中使用。
值得一提的是,這兩款模型在發(fā)布時便對高通和聯發(fā)科的硬件進行了適配,并針對 Arm 處理器進行了優(yōu)化,廣泛的兼容性將加速其在各種移動和物聯網設備中的應用。
開源地址:https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32

11B和90B視覺模型是 Llama首次發(fā)布的多模態(tài)大模型,能理解和推理圖像,實現文檔分析、圖像字幕和視覺問答等任務。
Llama 3.2 90B版本擅長常識、長文本生成、多語言翻譯、編碼、數學和高級推理等,還引入了圖像推理功能,可完成圖像理解和視覺推理任務,能進行圖像標題生成、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答等。
Llama 3.2 11B版本適合內容創(chuàng)建、對話式人工智能、語言理解和需要視覺推理的企業(yè)應用。在文本摘要、情感分析、代碼生成和執(zhí)行指令方面表現出色,也增加了圖像推理能力,其用例與 90B 版本類似,包括圖像標題生成、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答等。
根據測試數據顯示,Llama 3.2模型在圖像識別和視覺理解基準測試中與領先的閉源模型具有競爭力,例如,Claude 3 haiku等。
本文轉自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


















