賴耶 AI 工廠-基于 NVIDIA AI Enterprise 的優(yōu)秀落地實(shí)踐
本次分享主要介紹賴耶 AI 工廠提供的多項(xiàng)服務(wù)和解決方案,包括萬卡集群管理系統(tǒng) KAA、企業(yè)大模型服務(wù)平臺(tái) MANAS 等。賴耶 AI 工廠致力于為客戶提供高性能的人工智能解決方案,涵蓋了從算法創(chuàng)新到產(chǎn)品落地的全鏈條能力。文中將詳細(xì)介紹賴耶 AI 工廠的技術(shù)優(yōu)勢(shì)、服務(wù)內(nèi)容,以及如何通過一體化集群解決方案來滿足企業(yè)在人工智能領(lǐng)域的需求。
一、為什么選擇賴耶 AI 工廠
首先來介紹一下賴耶科技推出的賴耶 AI 工廠。
1. 公司介紹
北京賴耶信息科技有限公司(以下簡稱“賴耶科技”)是一家致力于為行業(yè)提供全棧式大語言模型(LLM)技術(shù)服務(wù)的公司。我們的使命是通過先進(jìn)的技術(shù)手段,推動(dòng)各行各業(yè)的智能化轉(zhuǎn)型。
核心團(tuán)隊(duì)成員來自于各大行業(yè)頂級(jí)公司及研發(fā)機(jī)構(gòu),包括 Nvidia、Qualcomm、VMware、華為、阿里巴巴達(dá)摩院及京東等。這些成員在各自領(lǐng)域擁有豐富的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),共同構(gòu)建了公司堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
賴耶科技在高性能計(jì)算集群建設(shè)、基礎(chǔ)設(shè)施及大模型應(yīng)用方面積累了豐富的實(shí)踐經(jīng)驗(yàn)。我們的技術(shù)覆蓋面廣泛,涉及人工智能、計(jì)算機(jī)科學(xué)、機(jī)器人技術(shù)、自動(dòng)駕駛及自然語言處理等多個(gè)領(lǐng)域。從算法創(chuàng)新到產(chǎn)品落地,賴耶科技具備完善的全流程技術(shù)能力。公司愿景是建立一個(gè)人工智能鑄造廠,為客戶提供“開箱即用”的企業(yè)級(jí)人工智能解決方案。
2. 企業(yè)如何面對(duì)開發(fā)生產(chǎn)式 AI 帶來的挑戰(zhàn)
在當(dāng)前的大模型時(shí)代,企業(yè)在定制人工智能(AI)解決方案時(shí)往往會(huì)遇到諸多挑戰(zhàn)。
(1)構(gòu)建基礎(chǔ)大模型的挑戰(zhàn)
- 數(shù)據(jù)需求:大模型的訓(xùn)練通常需要海量的數(shù)據(jù),這不僅是為了避免模型過擬合,更重要的是為了提升模型的泛化能力。然而,許多企業(yè)在實(shí)際操作中會(huì)遇到數(shù)據(jù)不足或者數(shù)據(jù)質(zhì)量不高的問題,這對(duì)模型的性能和實(shí)際應(yīng)用造成了直接的影響。
- 計(jì)算資源:訓(xùn)練大模型需要大量的計(jì)算資源,包括高性能的計(jì)算硬件和復(fù)雜的分布式計(jì)算架構(gòu)的支持。對(duì)于大多數(shù)企業(yè)而言,高效利用龐大的計(jì)算資源是一項(xiàng)巨大的挑戰(zhàn)。此外,由于模型的復(fù)雜性,訓(xùn)練過程可能需耗時(shí)數(shù)天甚至數(shù)月,這進(jìn)一步增加了資源管理的難度。
- 模型選擇與優(yōu)化:選擇合適的模型并根據(jù)業(yè)務(wù)需求進(jìn)行優(yōu)化是企業(yè)在大模型應(yīng)用中的另一大難題。在選擇和優(yōu)化模型時(shí),必須綜合考慮帶寬、能耗、存儲(chǔ)等各方面的成本,這些因素將直接影響到模型的效果和企業(yè)的總體運(yùn)營成本。
(2)使用基礎(chǔ)大模型的挑戰(zhàn)
- 泛化能力:盡管大模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)出色,但在未見過的數(shù)據(jù)上,模型的表現(xiàn)可能遠(yuǎn)不如預(yù)期,這種泛化能力的不足是絕大多數(shù)大模型面臨的共同問題。
- 模型解釋性:許多大模型,尤其是深度神經(jīng)網(wǎng)絡(luò),其決策過程通常是“黑箱”的,難以理解和解釋,這對(duì)許多應(yīng)用場(chǎng)景中的透明度和可信度提出了挑戰(zhàn)。
- 過擬合風(fēng)險(xiǎn):大模型由于參數(shù)眾多,更容易出現(xiàn)過擬合現(xiàn)象,即在訓(xùn)練數(shù)據(jù)上表現(xiàn)優(yōu)異,而在新數(shù)據(jù)上表現(xiàn)不佳,這種現(xiàn)象會(huì)影響模型的穩(wěn)定性和可靠性。
- 倫理與偏見:大模型可能無意中學(xué)習(xí)并放大訓(xùn)練數(shù)據(jù)中的偏見,導(dǎo)致在實(shí)際應(yīng)用中出現(xiàn)不公平或歧視性的結(jié)果,這種倫理問題已成為大模型應(yīng)用中的重要挑戰(zhàn)之一。
賴耶AI 工廠所提供的解決方案可以幫助企業(yè)面對(duì)上述挑戰(zhàn)。
3. 賴耶 AI 工廠全覽圖
賴耶 AI 工廠,由底層架構(gòu)、中間平臺(tái)以及應(yīng)用層共同構(gòu)成了一個(gè)功能強(qiáng)大、靈活高效的 AI 解決方案平臺(tái)。
(1)底層架構(gòu):萬卡集群管理系統(tǒng)(KAA)
底層架構(gòu)是賴耶 AI 工廠的基礎(chǔ),由萬卡集群管理系統(tǒng)(KAA)提供支持。具備以下功能:
- IO 通信優(yōu)化:提升輸入輸出數(shù)據(jù)的傳輸效率,確保系統(tǒng)的高效運(yùn)行。
- 虛擬化:實(shí)現(xiàn)資源的虛擬分配與管理,提升資源利用率。
- 云原生管理和編排:支持云端編排與管理,便于對(duì)大規(guī)模計(jì)算資源的動(dòng)態(tài)管理。
- 高性能多租戶隔離:為不同租戶提供獨(dú)立的計(jì)算環(huán)境,確保安全性和性能。
- 計(jì)量計(jì)費(fèi):精確的資源使用計(jì)量和計(jì)費(fèi)系統(tǒng),便于企業(yè)管理成本。
- 動(dòng)態(tài)擴(kuò)展部署:支持計(jì)算資源的動(dòng)態(tài)擴(kuò)展和靈活部署,以滿足不同業(yè)務(wù)需求。
(2)中間平臺(tái):Manas 平臺(tái)
在中層,通過 Manas 平臺(tái)為大模型提供全套解決方案,涵蓋了從數(shù)據(jù)預(yù)處理到模型各階段的支持,包括:
- 數(shù)據(jù)預(yù)處理:確保數(shù)據(jù)質(zhì)量,為模型訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ)。
- 預(yù)訓(xùn)練:通過大規(guī)模數(shù)據(jù)的初步訓(xùn)練,獲得基礎(chǔ)模型。
- 模型對(duì)齊:根據(jù)特定任務(wù)對(duì)模型進(jìn)行對(duì)齊調(diào)整。
- 模型微調(diào):根據(jù)具體應(yīng)用場(chǎng)景對(duì)模型進(jìn)行進(jìn)一步優(yōu)化和微調(diào)。
- 安全護(hù)欄:保障模型使用過程中的安全性和合規(guī)性。
(3)應(yīng)用層:Manas 微服務(wù)
上層是通過 Manas 平臺(tái)的微服務(wù)模塊,針對(duì)不同應(yīng)用場(chǎng)景提供快速系統(tǒng)集成的服務(wù)。應(yīng)用場(chǎng)景包括:智能推理、語音和翻譯、生物醫(yī)藥、內(nèi)容生成、路徑規(guī)劃等。
賴耶 AI 工廠在自身的 AI 數(shù)據(jù)標(biāo)注、行業(yè)模型訓(xùn)練精調(diào)、仿真測(cè)試環(huán)境等環(huán)節(jié)使用了大量算力,形成了一系列成熟的解決方案,這些方案可以應(yīng)用于客戶項(xiàng)目中,加速客戶的 AI 生產(chǎn)效率,幫助企業(yè)打造新一代智能化基礎(chǔ)設(shè)施,提供高性能的模型訓(xùn)練和推理平臺(tái),并構(gòu)建自主可控的 AI 技術(shù)體系。
二、萬卡集群管理系統(tǒng) KAA
接下來從底層開始介紹賴耶 AI 工廠。首先來看一下萬卡集群管理系統(tǒng) KAA,如何助力企業(yè)大模型開發(fā)提速。
1. 解決超大規(guī)模組網(wǎng)需求
萬卡集群的管理技術(shù)主要涉及模型訓(xùn)練、數(shù)據(jù)傳輸以及集群管理等關(guān)鍵問題。如下:
- 高帶寬數(shù)據(jù)傳輸
AI 模型訓(xùn)練和數(shù)據(jù)傳輸需要高帶寬支持,以實(shí)現(xiàn)快速的數(shù)據(jù)交換,尤其是對(duì)于大規(guī)模模型參數(shù)的傳輸,如果帶寬不足,將導(dǎo)致數(shù)據(jù)傳輸緩慢,繼而影響模型訓(xùn)練的效率。 - 低延時(shí)協(xié)同工作
低延時(shí)對(duì)于保持集群中各節(jié)點(diǎn)的高效協(xié)同工作至關(guān)重要。高延遲會(huì)導(dǎo)致同步操作的延遲,影響訓(xùn)練的實(shí)時(shí)性。采用高性能的網(wǎng)絡(luò)技術(shù)(如 InfiniBand,簡稱 IB),可以顯著減少延遲,提高集群的穩(wěn)定性。 - 高可靠性與故障恢復(fù)
對(duì)于長時(shí)間運(yùn)行的 AI 訓(xùn)練任務(wù),集群的穩(wěn)定性尤為重要。任何硬件故障或網(wǎng)絡(luò)中斷都可能導(dǎo)致訓(xùn)練任務(wù)中斷,需要重新啟動(dòng),會(huì)浪費(fèi)大量時(shí)間和資源。因此,集群需要具備高可靠性和故障恢復(fù)能力。 - 自動(dòng)化部署與維護(hù)
自動(dòng)化部署可以加快集群的搭建和維護(hù)速度,減少人為失誤。自動(dòng)化部署配置需要進(jìn)行全面的核查,以確保系統(tǒng)穩(wěn)定性和性能。 - 資源隔離與管理
在共享的 AI 萬卡集群中,不同用戶和業(yè)務(wù)需要進(jìn)行隔離,以保證資源分配的公平性和數(shù)據(jù)安全。我們的資源管理技術(shù)能夠限制不同業(yè)務(wù)對(duì)計(jì)算和 IO 資源的使用,實(shí)現(xiàn)資源隔離和優(yōu)先級(jí)調(diào)度。
2. 網(wǎng)絡(luò)設(shè)計(jì)
構(gòu)建一個(gè)高效的萬卡集群網(wǎng)絡(luò)拓?fù)洌枰紤]如下一些因素:
- 確定算力規(guī)模
在構(gòu)建 AI 萬卡集群時(shí),首先需要評(píng)估所需的計(jì)算能力,涉及到模型的復(fù)雜度、訓(xùn)練數(shù)據(jù)的規(guī)模以及期望的訓(xùn)練時(shí)間。 - 選擇加速卡類型
加速卡的選擇取決于算法的特定需求和預(yù)算情況,不同類型的加速卡在性能和成本上有所不同,選擇時(shí)需要綜合考慮。 - 確認(rèn)存儲(chǔ)需求
根據(jù)數(shù)據(jù)集的大小和訓(xùn)練過程中對(duì) IO 的需求,選擇合適的存儲(chǔ)解決方案,以確保數(shù)據(jù)的快速讀寫和高吞吐量。 - 管理和安全需求
設(shè)計(jì)集中管理系統(tǒng),用于集群性能監(jiān)控、作業(yè)調(diào)度、資源分配和安全防護(hù),這是保證集群高效運(yùn)行和數(shù)據(jù)安全的基礎(chǔ)。 - 網(wǎng)絡(luò)分區(qū)規(guī)劃
合理劃分網(wǎng)絡(luò)區(qū)域,以支持不同業(yè)務(wù)需求,并保證網(wǎng)絡(luò)的可擴(kuò)展性和安全性。 - 高速網(wǎng)絡(luò)設(shè)計(jì)
計(jì)算節(jié)點(diǎn)之間的高速網(wǎng)絡(luò)設(shè)計(jì)至關(guān)重要,從而減少節(jié)點(diǎn)之間的通信延遲。 - 存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)
構(gòu)建高效的存儲(chǔ)網(wǎng)絡(luò),以確保數(shù)據(jù)傳輸具備高帶寬和低延時(shí),支持快速的數(shù)據(jù)訪問。 - 接入?yún)^(qū)設(shè)計(jì)
設(shè)計(jì)一個(gè)穩(wěn)定且安全的接入?yún)^(qū),允許用戶和應(yīng)用程序安全地接入集群。 - 智能中心網(wǎng)絡(luò)建設(shè)
建立智能中心網(wǎng)絡(luò),用于優(yōu)化資源分配,提高作業(yè)調(diào)度效率,并支持未來擴(kuò)展。
遵循上述原則,即可構(gòu)建一個(gè)高性能、高效率且可擴(kuò)展的 AI 萬卡集群,以支持復(fù)雜的 AI 訓(xùn)練和推理任務(wù),有效解決高帶寬和低延時(shí)的痛點(diǎn),為未來的 AI 應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ)。
3. 賴耶 AI 集群管理平臺(tái) KAA
KAA 平臺(tái)所提供的關(guān)鍵能力包括:
- 統(tǒng)一管理平臺(tái)
KAA 平臺(tái)提供了一個(gè)集中化的統(tǒng)一管理界面,用于監(jiān)控和管理整個(gè) AI 基礎(chǔ)設(shè)施,包括硬件資源、網(wǎng)絡(luò)配置和軟件應(yīng)用的全方位管理。 - 自動(dòng)化工具與流程
為簡化 AI 集群的部署工作,KAA 平臺(tái)提供了多種自動(dòng)化工具和流程。這些自動(dòng)化工具能夠最大限度地減少人為干預(yù),加快部署速度。 - 智能調(diào)度算法
在優(yōu)化集群資源使用方面,KAA 平臺(tái)采用了智能調(diào)度算法來優(yōu)化資源分配。該算法能夠提高計(jì)算資源的利用率,確保關(guān)鍵任務(wù)能夠得到必要的資源支持,進(jìn)而提升整體性能。 - 綜合監(jiān)控系統(tǒng)
平臺(tái)配備了綜合的監(jiān)控系統(tǒng),能夠?qū)崟r(shí)跟蹤集群的性能,快速識(shí)別和解決問題,保證系統(tǒng)的穩(wěn)定性和可靠性。 - 多租戶與計(jì)費(fèi)計(jì)量支持
KAA 平臺(tái)支持多租戶架構(gòu),允許多用戶訪問并使用平臺(tái)資源。通過隔離的資源和計(jì)費(fèi)系統(tǒng),為不同的用戶和業(yè)務(wù)單元提供透明且公平的費(fèi)用計(jì)算。
通過上述功能,KAA 平臺(tái)可以顯著提升 AI 項(xiàng)目的工程效率,降低成本,加速 AI 模型的開發(fā)和部署,同時(shí)確保資源的高效利用和系統(tǒng)的穩(wěn)定運(yùn)行。
KAA 平臺(tái)提供了非常簡潔的操作界面,如上圖所示。用戶可以一鍵完成集群的系統(tǒng)安裝、算力分配、算力聚合和算力配置等操作。
- 自動(dòng)化系統(tǒng)安裝:管理員通過簡單的一鍵操作即可安裝整個(gè)集群的操作系統(tǒng)。這個(gè)過程是高度自動(dòng)化的,減少了手動(dòng)配置每臺(tái)服務(wù)器的需求,從而節(jié)省了大量時(shí)間并減少了人為錯(cuò)誤。
- 靈活的算力配置:平臺(tái)提供了直觀的算力配置工具,允許管理員根據(jù)不同的工作負(fù)載需求靈活分配和調(diào)整計(jì)算資源,包括 CPU、GPU、內(nèi)存和其他硬件資源配置,都可以在 KAA 平臺(tái)上靈活選擇和調(diào)整。
- 高效的算力聚合:KAA 平臺(tái)能夠有效地聚合集群中的所有計(jì)算資源,形成一個(gè)統(tǒng)一的資源池,不同的作業(yè)和任務(wù)可以共享這些資源,從而提高了資源利用率,并允許更高效的作業(yè)調(diào)度。
- 自動(dòng)化算力分配:平臺(tái)的自動(dòng)算力分配功能,可以根據(jù)作業(yè)的優(yōu)先級(jí)、資源需求和截止時(shí)間等參數(shù),自動(dòng)將計(jì)算資源分配給最合適的作業(yè)。
KAA 平臺(tái)是一個(gè)全面的集群管理解決方案,提供了從物理基礎(chǔ)設(shè)施到單個(gè)硬件組件端到端的管理能力。平臺(tái)覆蓋整個(gè)數(shù)據(jù)中心集群的各個(gè)層面,確保了整個(gè)計(jì)算環(huán)境的完全控制和優(yōu)化。
- 機(jī)柜層面的基礎(chǔ)設(shè)施管理:KAA 平臺(tái)能夠管理機(jī)柜層面的基礎(chǔ)設(shè)施,包括電源分配、冷卻系統(tǒng)和機(jī)架組織的優(yōu)化等。通過這些措施,確保硬件在適宜的物理環(huán)境中運(yùn)行,從而提高整體效率和穩(wěn)定性。
- 網(wǎng)絡(luò)層面的管理:KAA 平臺(tái)擴(kuò)展到網(wǎng)絡(luò)層面,可以管理交換機(jī)和網(wǎng)絡(luò)連接,確保數(shù)據(jù)傳輸?shù)母咝院涂煽啃裕ūO(jiān)控網(wǎng)絡(luò)流量、優(yōu)化網(wǎng)絡(luò)配置以及保障網(wǎng)絡(luò)的安全性和隔離性。
- 服務(wù)器級(jí)別的管理:KAA 平臺(tái)提供對(duì)每臺(tái)服務(wù)器的管理,包括操作系統(tǒng)的安裝、更新和維護(hù),以及服務(wù)器硬件的狀態(tài)監(jiān)控和故障排除等。
- 單個(gè)硬件組件的管理:KAA 平臺(tái)能夠?qū)蝹€(gè)硬件組件進(jìn)行管理,如 GPU、CPU 和內(nèi)存。用戶可以細(xì)致地監(jiān)控和調(diào)整這些關(guān)鍵組件的性能和健康狀態(tài),確保它們運(yùn)行在最佳狀態(tài)下。
- Nsight 工具的集成:KAA 平臺(tái)結(jié)合了 Nsight 工具,這是一款強(qiáng)大的硬件分析工具。通過 Nsight,用戶可以觀察每個(gè) GPU 的行為,及時(shí)發(fā)現(xiàn)和解決潛在的性能瓶頸和故障問題,從而提高整體計(jì)算效率和穩(wěn)定性。
KAA 集群管理系統(tǒng)利用 BCM 技術(shù)實(shí)現(xiàn)了集群的全面監(jiān)控和自動(dòng)化部署。系統(tǒng)部署在北京賴耶辦公室的 L20 集群中,包含算力節(jié)點(diǎn)、管理服務(wù)器和網(wǎng)絡(luò)交換機(jī)等設(shè)備。通過 2D 和 3D 視角,可以直觀地觀察設(shè)備的健康狀態(tài)。
系統(tǒng)提供了靈活的監(jiān)控和警告功能,允許用戶自定義監(jiān)控模塊和告警刷新頻率。通過監(jiān)控頁面,用戶還可以集中管理和監(jiān)控 CPU、GPU、內(nèi)存和各節(jié)點(diǎn)的詳細(xì)狀態(tài),資源利用一目了然。
利用 BCM 的核心功能,KAA 集群管理系統(tǒng)極大地簡化了系統(tǒng)監(jiān)控工作,使其更加高效、多維。此外,系統(tǒng)還支持對(duì)所有節(jié)點(diǎn)進(jìn)行快速的一鍵安裝和恢復(fù)操作。通過一鍵裝機(jī)功能,實(shí)現(xiàn)了輕松的規(guī)?;渴鸷凸芾?,極大提升了操作便捷性和效率。
三、企業(yè)大模型服務(wù)平臺(tái) MANAS
接下來介紹專門為企業(yè)大模型服務(wù)的 MANAS 平臺(tái)。
1. 企業(yè)大模型服務(wù)平臺(tái) MANAS 介紹
大模型開發(fā)的基本流程包括以下幾方面:
- 數(shù)據(jù)管理:數(shù)據(jù)管理涉及到數(shù)據(jù)的收集、清理、標(biāo)注和存儲(chǔ)。該平臺(tái)通過 GPU 加速了訓(xùn)練數(shù)據(jù)的處理,例如,一個(gè) 10TB 的訓(xùn)練數(shù)據(jù)在 GPU 上的處理速度比在較高基準(zhǔn)的 CPU 上要快 20 倍。
- 模型開發(fā):針對(duì)模型開發(fā)過程中的模型選擇、訓(xùn)練和測(cè)試,MANAS 平臺(tái)提供了簡單易用的圖形化用戶界面,以簡化各種 AI 工廠微服務(wù)的使用。在界面上可以通過拖拉拽的方式進(jìn)行操作,還支持編排算法任務(wù)和 pipeline 等多種調(diào)試運(yùn)行方式,方便用戶使用 NVIDIA 提供的 NIM 微服務(wù)。
- 模型定制:平臺(tái)允許用戶針對(duì)不同的數(shù)據(jù)和計(jì)算限制進(jìn)行模型定制,提供了最先進(jìn)的調(diào)優(yōu)技術(shù),國內(nèi) L20 最佳的優(yōu)化結(jié)果,性價(jià)比提高 4 倍,成本減少 80%。
- 模型評(píng)估:對(duì)于大模型的評(píng)估,平臺(tái)提供了快速和全面的基準(zhǔn)測(cè)試和評(píng)估模型質(zhì)量的方法。
- 模型部署:平臺(tái)支持將訓(xùn)練好的模型部署到生產(chǎn)環(huán)境中,提供實(shí)際的應(yīng)用。在推理優(yōu)化方面,平臺(tái)提供了低延遲、高吞吐量的部署方式,能夠根據(jù)需要?jiǎng)討B(tài)加載和卸載模型,確保單個(gè) GPU 服務(wù)器上運(yùn)行盡可能多的模型。
- 信息檢索:嵌入和檢索模型,確保召回包含答案或者直接說“我不知道”,解決了大語言模型由于專業(yè)領(lǐng)域知識(shí)不足引起的幻覺問題。
- 數(shù)據(jù)防護(hù):將大模型保護(hù)在安全邊界之內(nèi),防止惡意提示的影響,從而確保組織能夠放心地部署生產(chǎn)就緒的 AI 大模型,確保正常安全運(yùn)營。
賴耶科技還提供了一些解決數(shù)據(jù)處理痛點(diǎn)的功能,例如基于 DASK 和 MPI 的分布式計(jì)算、模糊和精確的重復(fù)數(shù)據(jù)去重,以及文檔級(jí)的質(zhì)量過濾。
2. MANAS 平臺(tái)優(yōu)化示例
上圖展示的是 MANAS 平臺(tái) Notebook 開發(fā)界面。在這里,用戶可以在不修改任何代碼的情況下,加速數(shù)據(jù)處理流程。例如,對(duì)于 10 億萬行的數(shù)據(jù),平臺(tái)可以提供高達(dá) 60 倍的處理速度。
MANAS 平臺(tái)提供了從算法到芯片的全鏈條優(yōu)化,包括存儲(chǔ) IO 優(yōu)化、網(wǎng)絡(luò) IO 優(yōu)化、在網(wǎng)計(jì)算優(yōu)化、IO 數(shù)據(jù)統(tǒng)一管理優(yōu)化、分片和多 GPU 融合優(yōu)化、系統(tǒng)內(nèi)核優(yōu)化、訓(xùn)練框架優(yōu)化和模型優(yōu)化。通過這些優(yōu)化能夠顯著提升企業(yè)大模型的開發(fā)進(jìn)程,幫助企業(yè)更好地實(shí)現(xiàn)降本增效。
上圖展示了 MANAS 平臺(tái)對(duì)預(yù)訓(xùn)練進(jìn)行優(yōu)化的一個(gè)例子。
Mona 是賴耶的一個(gè)高效訓(xùn)練框架,專為大模型預(yù)訓(xùn)練提供高性能的加速服務(wù)。其技術(shù)亮點(diǎn)主要包括:
- 高維張量并行:有效解決了一維張量并行中數(shù)據(jù)冗余和通信量過大的問題,同時(shí)也解決了未配備 NVLink 的計(jì)算卡在節(jié)點(diǎn)內(nèi)采用張量并行時(shí)的通信瓶頸。
- 完全數(shù)據(jù)并行:在數(shù)據(jù)并行模式下,優(yōu)化器參數(shù)、模型參數(shù)和梯度都均勻地分片存儲(chǔ)在并行設(shè)備中,解決了分片不完全導(dǎo)致的內(nèi)存冗余問題。
- FP8 優(yōu)化:在加速的同時(shí),帶來了更小的內(nèi)存消耗。
- 動(dòng)態(tài)選擇重計(jì)算技術(shù):大幅降低了反向梯度計(jì)算的算力消耗。Mona 動(dòng)態(tài)選擇內(nèi)存和算力密度比值高的算子進(jìn)行激活重計(jì)算,并實(shí)時(shí)根據(jù)顯存占用動(dòng)態(tài)調(diào)整規(guī)模。
- 穩(wěn)定訓(xùn)練機(jī)制:在訓(xùn)練過程中,數(shù)據(jù)會(huì)被實(shí)時(shí)監(jiān)控,不穩(wěn)定的節(jié)點(diǎn)會(huì)及時(shí)下線,確保訓(xùn)練過程始終在可控范圍內(nèi)進(jìn)行。針對(duì)預(yù)訓(xùn)練,提供了 O0 到 O3 四個(gè)優(yōu)化選項(xiàng),用戶可以根據(jù)需求進(jìn)行對(duì)比和選擇。在平臺(tái)的 pipeline 中,可以直接使用這些優(yōu)化選項(xiàng),并在 TensorBoard 中看到加速效果。以 Step Time 為例,可以從 O0 的 6 秒降到 O3 的 2 秒,實(shí)現(xiàn)了 3 倍的速度提升。
3. MANAS 平臺(tái)的模型定制和優(yōu)化
接下來深入了解一下 MANAS 平臺(tái)的模型定制化套件,如何針對(duì)企業(yè)的特定需求定制大語言模型。四個(gè)階段的模型定制流程如下:
- 提示工程(Prompt Engineering):類似于對(duì)運(yùn)動(dòng)員進(jìn)行特定訓(xùn)練,通過少量學(xué)習(xí)、思維鏈推理和系統(tǒng)化提示,在數(shù)據(jù)、計(jì)算和資源最小化的情況下實(shí)現(xiàn)良好的效果。這種方法迅速且經(jīng)濟(jì),但可能無法完全掌握專業(yè)任務(wù)的復(fù)雜性。
- 提示學(xué)習(xí)(Prompt Learning):在提升定制規(guī)模時(shí),采用 Prompt tuning 和 P-tuning 等技術(shù),相當(dāng)于為運(yùn)動(dòng)員定制更高級(jí)的訓(xùn)練計(jì)劃。盡管需要投入更多資源,但不會(huì)犧牲模型已有能力,并可帶來更出色的性能。
- 參數(shù)高效微調(diào)(PEFT):包括 Adapter、LoRA 和 IA3 等工具,專門針對(duì)特定領(lǐng)域進(jìn)行訓(xùn)練,以達(dá)到最佳效果。這種方法需要更多時(shí)間和專業(yè)知識(shí)。
- 全面調(diào)整(Fine Tuning):例如 SFT 和 RLHF,這類似于運(yùn)動(dòng)員的全面且個(gè)性化的訓(xùn)練方案,允許對(duì)模型進(jìn)行全面調(diào)整。這種方法提供了最卓越的結(jié)果,并具有靈活的模型參數(shù)修改能力,但對(duì)數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)的要求也最高。模型在學(xué)習(xí)新技能時(shí)可能會(huì)存在丟失已有技能的風(fēng)險(xiǎn)。
無論是在支持快速設(shè)置還是深度定制解決方案方面,MANAS 都可以提供全方位的工具,以滿足大模型開發(fā)中的特定需求。從提示工程到指令調(diào)優(yōu),每種方法都權(quán)衡了數(shù)據(jù)、計(jì)算投資、準(zhǔn)確性以及所需專業(yè)知識(shí)的復(fù)雜度,以提供最優(yōu)方案。
上圖展示了一個(gè)MANAS 平臺(tái)的實(shí)例,利用平臺(tái)的 Pipeline 工具和 Notebook 進(jìn)行參數(shù)高效微調(diào)(PEFT)任務(wù),并最終獲得精調(diào)評(píng)估結(jié)果。
MANAS 平臺(tái)支持市面上絕大多數(shù)的大模型框架,包括語言框架,還有圖像的模型框架,在平臺(tái)的模型管理模塊中都可以開箱即用。
MANAS 支持快速集成 NIM API 來開發(fā)企業(yè)應(yīng)用。
以上展示了如何通過 Pipeline 方式或 Agent 編排的方式,輕松部署各項(xiàng) NIM 服務(wù),構(gòu)建企業(yè)級(jí) RAG(Retrieval-Augmented Generation)應(yīng)用。
四、企業(yè)級(jí)專家技術(shù)服務(wù)
1. 賴耶 AI 工廠企業(yè)專家技術(shù)支持服務(wù)介紹
賴耶工廠提供了企業(yè)級(jí)的專家技術(shù)服務(wù)。其中,業(yè)務(wù)標(biāo)準(zhǔn)支持包括,配置、性能、AI 庫、工具的指導(dǎo),最新的安全修復(fù)程序、維護(hù)版本以及合作伙伴之間的協(xié)調(diào)支持,還有靈活的部署,一個(gè)適用于所有平臺(tái)的許可證,并提供關(guān)于控制升級(jí)、維護(hù)計(jì)劃的長期支持。
增值技術(shù)支持包括,專用客戶支持服務(wù)和 7*24 小時(shí)快速響應(yīng)服務(wù)。
2. 客戶生命周期服務(wù)
賴耶科技所提供的支持,涵蓋咨詢服務(wù)、部署服務(wù)、培訓(xùn)服務(wù)、云運(yùn)維和安全服務(wù)等各個(gè)方面。
五、賴耶 AI 工廠一體化集群解決方案
接下來,介紹企業(yè)級(jí)一體化集群部署方案,從單節(jié)點(diǎn)到超級(jí)算力集群,幫助企業(yè)快速搭建高效計(jì)算中心。
1. 企業(yè)級(jí)一體化集群解決方案
解決方案包括:
- 單節(jié)點(diǎn)部署:支持小型企業(yè)或初創(chuàng)團(tuán)隊(duì)的初期需求。
- 16 節(jié)點(diǎn)中等規(guī)模部署:滿足中型企業(yè)的大數(shù)據(jù)處理和模型訓(xùn)練需求。
- 250 節(jié)點(diǎn)大規(guī)模集群:面向需要高效算力的企業(yè),支持復(fù)雜任務(wù)。
- 1,000 節(jié)點(diǎn)超大規(guī)模集群:提供萬卡級(jí)算力,適用于大型企業(yè)和科研機(jī)構(gòu)。
對(duì)上述規(guī)模賴耶科技均提供全面的技術(shù)支持,幫助企業(yè)順利搭建和運(yùn)行算力集群,充分利用大模型的能力。
以上就是本次分享的內(nèi)容,歡迎大家持續(xù)關(guān)注賴耶科技。讓我們一起見證大模型時(shí)代的進(jìn)步。
六、問答環(huán)節(jié)
Q1:賴耶平臺(tái)是否支持異構(gòu) AI 芯片池化?是否支持國產(chǎn)芯片?
A1:是的,賴耶平臺(tái)支持異構(gòu) AI 芯片的混合調(diào)度,能進(jìn)行池化操作,并滿足多模態(tài)大模型的不同流水線要求。目前正在規(guī)劃國產(chǎn)芯片的適配和優(yōu)化。
Q2:賴耶科技對(duì)于大模型推理方面有哪些優(yōu)化?
A2:主要在算法和系統(tǒng)兩個(gè)層面上,要應(yīng)對(duì)高效推理服務(wù)的各種挑戰(zhàn),包括:
- 低延遲與快速響應(yīng):特別是在實(shí)時(shí)應(yīng)用中,需要保持低延遲和快速響應(yīng)。
- 內(nèi)存占用與模型規(guī)模:大規(guī)模模型需要大量內(nèi)存,對(duì)于內(nèi)存有限的設(shè)備存在較大挑戰(zhàn)。
- 可擴(kuò)展性與吞吐量:推理系統(tǒng)需要處理變化的請(qǐng)求負(fù)載,保證可擴(kuò)展性和高吞吐量是關(guān)鍵。
- 硬件兼容與加速:需要有效利用硬件資源,并適配多種硬件設(shè)備。
- 準(zhǔn)確性與效率的平衡:在優(yōu)化性能時(shí),可能需要在一定程度上犧牲準(zhǔn)確性。
賴耶平臺(tái)的解決方案還進(jìn)行以下優(yōu)化:
- 模型結(jié)構(gòu)優(yōu)化:減少自注意力計(jì)算的復(fù)雜度、共享激活和條件計(jì)算。
- 模型壓縮:通過網(wǎng)絡(luò)剪枝和模型量化,減少模型的內(nèi)存和計(jì)算負(fù)載,提高推理速度。
- 請(qǐng)求調(diào)度優(yōu)化:動(dòng)態(tài)分配請(qǐng)求,提高資源利用率,并通過搶占式調(diào)度根據(jù)剩余執(zhí)行時(shí)間調(diào)整請(qǐng)求優(yōu)先級(jí)。
賴耶平臺(tái)通過一系列優(yōu)化技術(shù),致力于克服高效推理服務(wù)中的各種挑戰(zhàn),提升整體性能與效率。
Q3:什么是 L20 最佳的優(yōu)化技術(shù)?
A3:L20 最佳優(yōu)化技術(shù)主要指 MANAS 平臺(tái)對(duì)于 L20 計(jì)算的顯著加速。其優(yōu)化策略包括生成最佳并行方案、激活內(nèi)存優(yōu)化、算力圖優(yōu)化加速和 FP8 支持,提供了一系列提升計(jì)算效率的技術(shù)手段。
Q4:模型預(yù)訓(xùn)練時(shí) checkpoint 的存儲(chǔ)模式有哪些?
A4:模型預(yù)訓(xùn)練時(shí),存儲(chǔ) checkpoint 主要有兩種模式:
Flash 層 Checkpoint:在預(yù)訓(xùn)練過程中定期進(jìn)行 checkpoint 存儲(chǔ),確保數(shù)據(jù)的穩(wěn)固保存。
分布式存儲(chǔ)支持:
提供 checkpoint 的分布式存儲(chǔ),保證在大規(guī)模訓(xùn)練中高效管理和恢復(fù)訓(xùn)練進(jìn)度。
Q5:什么是賴耶提供的預(yù)訓(xùn)練加速包及其加速選項(xiàng)?
A5:賴耶的預(yù)訓(xùn)練加速包包含四個(gè)加速選項(xiàng),從 O0 到 O3,分別提供不同層級(jí)的優(yōu)化和性能提升。O1 的加速主要提供了并行的優(yōu)化,自動(dòng)選擇并行方案,采用了完全分片并行技術(shù)、高維張量并行技術(shù)、流水線并行技術(shù)、異步流水線并行技術(shù)等;O2 比 O1 增加了內(nèi)存冗余的優(yōu)化,包括動(dòng)態(tài)選擇性激活值重計(jì)算,以及激活值的分片等,有效降低了內(nèi)存的消耗;O3 的加速性能最優(yōu),提供了混合深度訓(xùn)練、計(jì)算圖的優(yōu)化、算子優(yōu)化。
Q6:MANAS 和 Colossal-AI 的訓(xùn)練框架有什么區(qū)別?
A6:MANAS 在算力圖優(yōu)化、FP8 優(yōu)化以及訓(xùn)練穩(wěn)定性方面具有優(yōu)勢(shì)。
Q7:賴耶的模型精調(diào)支持哪些主流的大模型?
A7:目前支持的大模型包括:LLama 系列、Baichuan2 系列、Mistral、GPT、Bert 系列等。
Q8:數(shù)據(jù)集的構(gòu)建有哪些渠道?數(shù)據(jù)集的增強(qiáng)手段有哪些?
A8:數(shù)據(jù)集的構(gòu)建和增強(qiáng)手段主要有以下幾個(gè)方面:
- 構(gòu)建渠道方面:
開源數(shù)據(jù)集:目前最常用的渠道是通過獲取和使用現(xiàn)有的開源數(shù)據(jù)集。
人工制作數(shù)據(jù):人工手工制作的數(shù)據(jù)集,盡管前期數(shù)據(jù)量較少,但非常定制化且精準(zhǔn)。
- 增強(qiáng)手段方面:
大模型擴(kuò)展:利用大模型,從基礎(chǔ)數(shù)據(jù)集生成更多數(shù)據(jù),增強(qiáng)數(shù)據(jù)集的豐富性。
線上數(shù)據(jù)收集:在應(yīng)用上線后,持續(xù)收集線上用戶生成的真實(shí)數(shù)據(jù),并定期將其加入數(shù)據(jù)集,以不斷擴(kuò)充和更新數(shù)據(jù)集。
通過這些渠道和手段,可以構(gòu)建和增強(qiáng)數(shù)據(jù)集,以提高模型的訓(xùn)練效果和實(shí)際應(yīng)用表現(xiàn)。
Q9:加速后準(zhǔn)確率有折損嗎?
A9:沒有。
Q10:FP8 的 kernel 是只能在 H100 以上的架構(gòu)上運(yùn)行嗎?顯卡的起步款是哪款?
A10:支持 FP8 需要在 Hopper 和 Ada Lovelace 的顯卡架構(gòu)上運(yùn)行。目前支持的顯卡起步款是 L20。