偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上

發(fā)布于 2024-9-27 14:15
瀏覽
0收藏

看到 Meta 的發(fā)布會,感覺智能又近了一步,從視覺語言模型的革新到輕量級模型在邊緣設(shè)備上的應(yīng)用,Meta正在將AI的觸角延伸到我們生活的每個角落。想象一下,在不久的將來,我們的手機可能會成為一個真正智能的個人助理,能夠理解我們的視覺世界,回答復(fù)雜的問題,甚至幫助我們做出更明智的決策。

同時,Meta堅持開源的策略正在激發(fā)全球開發(fā)者的創(chuàng)造力。這種開放創(chuàng)新的模式可能會加速AI技術(shù)的發(fā)展,帶來我們現(xiàn)在還無法想象的應(yīng)用和突破。

然而,隨著AI變得越來越強大,我們也面臨著諸多挑戰(zhàn)。如何確保AI的發(fā)展方向符合人類的利益?如何在推動創(chuàng)新的同時保護隱私和安全?這些問題都需要我們深思。Meta在這次發(fā)布會中強調(diào)的安全性和負責(zé)任創(chuàng)新,正是朝著解決這些問題邁出的重要一步。

Llama 3.2的發(fā)布讓我們看到了AI的無限可能,下面是發(fā)布會的重點內(nèi)容。

要點:

  • 今天,我們發(fā)布了Llama 3.2,其中包括小型和中型視覺LLM(11B和90B),以及適用于邊緣和移動設(shè)備的輕量級純文本模型(1B和3B),包括預(yù)訓(xùn)練和指令微調(diào)版本。
  • Llama 3.2的1B和3B模型支持128K令牌的上下文長度,在同類模型中處于最先進水平,適用于邊緣設(shè)備上的本地摘要、遵循指令和重寫任務(wù)等用例。這些模型從第一天起就支持高通和聯(lián)發(fā)科硬件,并針對Arm處理器進行了優(yōu)化。
  • 在廣泛生態(tài)系統(tǒng)的支持下,Llama 3.2的11B和90B視覺模型可以直接替代相應(yīng)的文本模型,同時在圖像理解任務(wù)上超越了Claude 3 Haiku等閉源模型。與其他開放的多模態(tài)模型不同,預(yù)訓(xùn)練和對齊模型都可以使用torchtune進行自定義應(yīng)用的微調(diào),并使用torchchat在本地部署。用戶還可以通過我們的智能助手Meta AI試用這些模型。
  • 我們正在分享首個官方Llama Stack發(fā)行版,這將大大簡化開發(fā)者在不同環(huán)境(包括單節(jié)點、本地、云和設(shè)備)中使用Llama模型的方式,實現(xiàn)具有集成安全性的檢索增強生成(RAG)和工具支持應(yīng)用的一鍵部署。
  • 我們一直與AWS、Databricks、戴爾科技、Fireworks、Infosys和Together AI等合作伙伴密切合作,為他們的下游企業(yè)客戶構(gòu)建Llama Stack發(fā)行版。設(shè)備上的分發(fā)通過PyTorch ExecuTorch實現(xiàn),單節(jié)點分發(fā)通過Ollama實現(xiàn)。
  • 我們繼續(xù)分享我們的工作,因為我們相信開放能推動創(chuàng)新,對開發(fā)者、Meta和世界都有好處。Llama已經(jīng)在開放性、可修改性和成本效益方面領(lǐng)先,使更多人能夠使用生成式AI實現(xiàn)創(chuàng)造性、有用和改變生活的突破。
  • 我們正在llama.com和Hugging Face上提供Llama 3.2模型下載,同時在我們廣泛的合作伙伴平臺(包括AMD、AWS、Databricks、戴爾、谷歌云、Groq、IBM、英特爾、微軟Azure、NVIDIA、甲骨文云、Snowflake等)上提供即時開發(fā)。

自從我們兩個月前宣布Llama 3.1系列模型以來,我們對它們所產(chǎn)生的影響感到興奮,其中包括405B——首個開放的前沿級AI模型。雖然這些模型非常強大,但我們認識到,使用它們進行構(gòu)建需要大量的計算資源和專業(yè)知識。我們也聽到一些沒有這些資源的開發(fā)者表示,他們?nèi)匀幌M袡C會使用Llama進行構(gòu)建。正如Meta創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格今天在Connect大會上分享的那樣,他們不必再等待了。今天,我們發(fā)布了Llama 3.2,其中包括小型和中型視覺LLM(11B和90B)以及適用于特定邊緣和移動設(shè)備的輕量級純文本模型(1B和3B)。

距離我們首次宣布Llama才一年半的時間,我們在如此短的時間內(nèi)取得了令人難以置信的進展。今年,Llama實現(xiàn)了10倍的增長,成為負責(zé)任創(chuàng)新的標(biāo)準(zhǔn)。Llama還繼續(xù)在開放性、可修改性和成本效益方面保持領(lǐng)先,并且與閉源模型具有競爭力——在某些領(lǐng)域甚至處于領(lǐng)先地位。我們相信,開放推動創(chuàng)新,是正確的前進道路,這就是為什么我們繼續(xù)分享我們的研究并與合作伙伴和開發(fā)者社區(qū)合作。

我們正在llama.com和Hugging Face上提供Llama 3.2模型下載,同時在我們廣泛的合作伙伴平臺上提供即時開發(fā)。合作伙伴是這項工作的重要組成部分,我們已經(jīng)與包括AMD、AWS、Databricks、戴爾、谷歌云、Groq、IBM、英特爾、微軟Azure、NVIDIA、甲骨文云和Snowflake在內(nèi)的25多家公司合作,以在第一天就實現(xiàn)服務(wù)。對于Llama 3.2版本,我們還與設(shè)備合作伙伴Arm、聯(lián)發(fā)科和高通合作,在發(fā)布時提供廣泛的服務(wù)。從今天開始,我們還向社區(qū)提供Llama Stack。有關(guān)最新版本的更多詳細信息,包括歐洲多模態(tài)可用性的信息,可以在我們的可接受使用政策中找到。

認識Llama 3.2

Llama 3.2系列中最大的兩個模型,11B和90B,支持圖像推理用例,如包括圖表和圖形在內(nèi)的文檔級理解、圖像說明和基于自然語言描述在圖像中定向定位對象等視覺定位任務(wù)。例如,一個人可以詢問他們的小企業(yè)在去年哪個月銷售業(yè)績最好,Llama 3.2可以根據(jù)可用的圖表進行推理,并快速提供答案。在另一個例子中,模型可以利用地圖進行推理,幫助回答諸如何時徒步旅行可能變得更陡峭或地圖上標(biāo)記的特定小徑的距離等問題。11B和90B模型還可以通過從圖像中提取細節(jié)、理解場景,然后創(chuàng)作一兩句話來作為圖像說明,幫助講述故事,從而彌合視覺和語言之間的差距。

輕量級的1B和3B模型在多語言文本生成和工具調(diào)用能力方面表現(xiàn)出色。這些模型使開發(fā)者能夠構(gòu)建個性化的、具有強大隱私保護的設(shè)備上代理應(yīng)用程序,數(shù)據(jù)永遠不會離開設(shè)備。例如,這樣的應(yīng)用程序可以幫助總結(jié)最近收到的10條消息,提取行動項目,并利用工具調(diào)用直接發(fā)送后續(xù)會議的日歷邀請。

在本地運行這些模型有兩個主要優(yōu)勢。首先,由于處理在本地完成,提示和響應(yīng)可以感覺瞬間完成。其次,本地運行模型可以通過不將消息和日歷信息等數(shù)據(jù)發(fā)送到云端來保持隱私,使整個應(yīng)用程序更加私密。由于處理是在本地進行的,應(yīng)用程序可以清楚地控制哪些查詢保留在設(shè)備上,哪些可能需要由云端的更大模型處理。

模型評估

我們的評估表明,Llama 3.2視覺模型在圖像識別和一系列視覺理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型Claude 3 Haiku和GPT4o-mini具有競爭力。3B模型在遵循指令、總結(jié)、提示重寫和工具使用等任務(wù)上優(yōu)于Gemma 2 2.6B和Phi 3.5-mini模型,而1B模型與Gemma不相上下。

我們在150多個涵蓋廣泛語言的基準(zhǔn)數(shù)據(jù)集上評估了性能。對于視覺LLM,我們評估了圖像理解和視覺推理基準(zhǔn)的性能。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

視覺模型

作為首批支持視覺任務(wù)的Llama模型,11B和90B模型需要一個全新的模型架構(gòu)來支持圖像推理。

為了添加圖像輸入支持,我們訓(xùn)練了一組適配器權(quán)重,將預(yù)訓(xùn)練的圖像編碼器集成到預(yù)訓(xùn)練的語言模型中。適配器由一系列交叉注意力層組成,將圖像編碼器表示輸入到語言模型中。我們在文本-圖像對上訓(xùn)練適配器,以使圖像表示與語言表示對齊。在適配器訓(xùn)練過程中,我們還更新了圖像編碼器的參數(shù),但有意不更新語言模型參數(shù)。通過這樣做,我們保持了所有純文本功能不變,為開發(fā)者提供了Llama 3.1模型的直接替代品。

我們的訓(xùn)練流程包括多個階段,從預(yù)訓(xùn)練的Llama 3.1文本模型開始。首先,我們添加圖像適配器和編碼器,然后在大規(guī)模噪聲(圖像,文本)對數(shù)據(jù)上進行預(yù)訓(xùn)練。接下來,我們在中等規(guī)模的高質(zhì)量領(lǐng)域內(nèi)和知識增強(圖像,文本)對數(shù)據(jù)上進行訓(xùn)練。

在后訓(xùn)練中,我們使用與文本模型類似的方法,通過監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化進行多輪對齊。我們利用合成數(shù)據(jù)生成,使用Llama 3.1模型在領(lǐng)域內(nèi)圖像之上過濾和增強問題和答案,并使用獎勵模型對所有候選答案進行排序,以提供高質(zhì)量的微調(diào)數(shù)據(jù)。我們還添加了安全緩解數(shù)據(jù),以生成具有高度安全性的模型,同時保持模型的有用性。

最終結(jié)果是一組可以接收圖像和文本提示,并對組合進行深入理解和推理的模型。這是朝著Llama模型擁有更豐富代理能力的又一步。

輕量級模型

正如我們在討論Llama 3.1時提到的,強大的教師模型可以用來創(chuàng)建性能更好的小型模型。我們在1B和3B模型上使用了兩種方法——剪枝和蒸餾,使它們成為第一批可以高效適配設(shè)備的高能力輕量級Llama模型。

剪枝使我們能夠減小Llama系列中現(xiàn)有模型的大小,同時盡可能多地恢復(fù)知識和性能。對于1B和3B模型,我們采用了從Llama 3.1 8B模型單次結(jié)構(gòu)化剪枝的方法。這涉及系統(tǒng)地移除網(wǎng)絡(luò)的部分內(nèi)容,并調(diào)整權(quán)重和梯度的大小,以創(chuàng)建一個更小、更高效的模型,同時保留原始網(wǎng)絡(luò)的性能。

知識蒸餾使用更大的網(wǎng)絡(luò)向更小的網(wǎng)絡(luò)傳授知識,其思想是較小的模型可以通過使用教師獲得比從頭開始更好的性能。對于Llama 3.2中的1B和3B模型,我們將Llama 3.1 8B和70B模型的logits納入模型開發(fā)的預(yù)訓(xùn)練階段,其中這些較大模型的輸出(logits)被用作標(biāo)記級目標(biāo)。知識蒸餾在剪枝之后使用,以恢復(fù)性能。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

在后訓(xùn)練中,我們使用與Llama 3.1類似的方法,通過對預(yù)訓(xùn)練模型進行多輪對齊來生成最終的聊天模型。每一輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)。

在后訓(xùn)練中,我們將上下文長度支持擴展到128K令牌,同時保持與預(yù)訓(xùn)練模型相同的質(zhì)量。我們還進行合成數(shù)據(jù)生成,通過仔細的數(shù)據(jù)處理和過濾來確保高質(zhì)量。我們精心混合數(shù)據(jù),以優(yōu)化多種能力的高質(zhì)量表現(xiàn),如總結(jié)、重寫、遵循指令、語言推理和工具使用。

為了使社區(qū)能夠在這些模型上進行創(chuàng)新,我們與全球前兩大移動系統(tǒng)芯片(SoC)公司高通和聯(lián)發(fā)科,以及為99%的移動設(shè)備提供基礎(chǔ)計算平臺的Arm密切合作。今天發(fā)布的權(quán)重基于BFloat16數(shù)值。我們的團隊正在積極探索將運行得更快的量化變體,我們希望很快能分享更多相關(guān)信息。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

Llama Stack發(fā)行版

7月,我們發(fā)布了Llama Stack API的意見征求,這是一個標(biāo)準(zhǔn)化接口,用于規(guī)范工具鏈組件(微調(diào)、合成數(shù)據(jù)生成)以定制Llama模型并構(gòu)建代理應(yīng)用程序。參與度一直很高。

從那時起,我們一直在努力使API成為現(xiàn)實。我們?yōu)橥评?、工具使用和RAG構(gòu)建了API的參考實現(xiàn)。此外,我們一直在與合作伙伴合作,使他們適應(yīng)成為API的提供者。最后,我們引入了Llama Stack Distribution作為一種打包多個API提供者的方式,這些提供者能夠很好地協(xié)同工作,為開發(fā)者提供單一端點。我們現(xiàn)在與社區(qū)分享一種簡化且一致的體驗,這將使他們能夠在多種環(huán)境中使用Llama模型,包括本地、云端、單節(jié)點和設(shè)備上。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

完整的發(fā)布內(nèi)容包括:

  1. Llama CLI(命令行界面),用于構(gòu)建、配置和運行Llama Stack發(fā)行版
  2. 多種語言的客戶端代碼,包括python、node、kotlin和swift
  3. Llama Stack Distribution Server和Agents API Provider的Docker容器
  4. 多個發(fā)行版

通過Meta內(nèi)部實現(xiàn)和Ollama的單節(jié)點Llama Stack Distribution

通過AWS、Databricks、Fireworks和Together的云端Llama Stack發(fā)行版

通過PyTorch ExecuTorch實現(xiàn)的iOS設(shè)備上Llama Stack Distribution

戴爾支持的本地Llama Stack Distribution

我們期待與開發(fā)者和合作伙伴合作,簡化使用Llama模型構(gòu)建的所有方面,并歡迎反饋。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

系統(tǒng)級安全

采取開放方法有許多好處。它有助于確保世界各地更多的人可以獲得AI提供的機會,防止權(quán)力集中在少數(shù)人手中,并在社會中更公平、更安全地部署技術(shù)。在我們繼續(xù)創(chuàng)新的同時,我們還希望確保我們正在賦予開發(fā)者構(gòu)建安全和負責(zé)任系統(tǒng)的能力。

基于我們之前的版本和持續(xù)努力支持負責(zé)任的創(chuàng)新,今天我們?yōu)槲覀兊陌踩U舷盗刑砑恿诵碌母?

  1. 首先,我們發(fā)布了Llama Guard 3 11B Vision,它旨在支持Llama 3.2的新圖像理解能力,并過濾文本+圖像輸入提示或?qū)@些提示的文本輸出響應(yīng)。
  2. 其次,隨著我們發(fā)布1B和3B Llama模型以在更受限制的環(huán)境(如設(shè)備上)使用,我們還優(yōu)化了Llama Guard以大幅降低其部署成本。Llama Guard 3 1B基于Llama 3.2 1B模型,經(jīng)過剪枝和量化,將其大小從2,858 MB減少到438 MB,使其部署比以往任何時候都更加高效。

這些新解決方案已集成到我們的參考實現(xiàn)、演示和應(yīng)用程序中,并準(zhǔn)備好供開源社區(qū)從第一天起使用。

Meta發(fā)布Llama 3.2:AI大模型再升級,從云端到掌上-AI.x社區(qū)

本文轉(zhuǎn)載自 ??芝士AI吃魚??,作者: 芝士AI吃魚

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦