AIGC大模型應用的推理場景優(yōu)化
在大模型和AIGC的新紀元,我們正見證一個前所未有的技術革命。從更自然的人機對話,到圖片、視頻生成,AIGC技術正在徹底改變我們創(chuàng)造、學習和交流的方式。

然而,這一切進步的背后,是對存儲技術的極端要求。舉個例子,一家致力于開發(fā)AIGC應用的公司,如何高效地處理和存儲大量的數(shù)據(jù),以不斷訓練和優(yōu)化其AI大模型。這不僅要求存儲系統(tǒng)能夠處理PB級的數(shù)據(jù)量,還要求在數(shù)據(jù)采集、清洗、訓練及推理的每一個環(huán)節(jié),都能提供高速、可靠的數(shù)據(jù)訪問。
隨著大模型參數(shù)規(guī)模的持續(xù)擴大,對計算基礎設施三大件——算力、網(wǎng)絡、存儲,都提出了新的要求。目前,支撐大模型的算力、網(wǎng)絡在快速迭代。算力方面,英偉達用了兩年的時間從H100升級到了H200,讓模型訓練性能提升了5倍;在網(wǎng)絡方面,已經(jīng)從以前的25G、50G、100G,逐步發(fā)展到200G的網(wǎng)絡,帶寬提升了超過6倍。
那么,對于存儲而言,包含了數(shù)據(jù)采集與清洗、模型訓練、以及推理三大關鍵環(huán)節(jié),每一個環(huán)節(jié)都對存儲系統(tǒng)提出了新的要求和挑戰(zhàn)。
數(shù)據(jù)采集與清洗的挑戰(zhàn):數(shù)據(jù)量和多樣性、多協(xié)議支持的需求、高性能和大帶寬的要求。
在AIGC技術的實施過程中,數(shù)據(jù)采集與清洗階段是基礎。這一階段的核心任務是收集來自不同源的數(shù)據(jù),進行預處理和清洗,以確保數(shù)據(jù)的質(zhì)量和可用性。這一任務面臨著幾個主要問題:數(shù)據(jù)量巨大、類型多樣化、需要多協(xié)議支持,以及對高性能和大帶寬的需求。不同類型的數(shù)據(jù)往往需要通過不同的協(xié)議進行收集和訪問,高效的數(shù)據(jù)處理不僅需要大容量存儲,還需要高性能和大帶寬以支持快速的數(shù)據(jù)讀寫和傳輸。
模型訓練的挑戰(zhàn):頻繁的checkpoint保存、高并發(fā)讀寫的需求。
大模型訓練過程中,為了防止數(shù)據(jù)丟失并能夠從最近的進度恢復,需要定期保存模型的狀態(tài),即checkpoint。這些checkpoint包含了模型的參數(shù)、超參數(shù)以及優(yōu)化器的狀態(tài)等信息,對于維持訓練的連續(xù)性至關重要。然而,隨著模型規(guī)模的不斷增大,這些checkpoint的體積也隨之增加,導致保存操作消耗大量時間和存儲資源,特別是在使用分布式訓練時,多個節(jié)點同時對存儲系統(tǒng)進行訪問,對存儲系統(tǒng)的并發(fā)處理能力和響應時間提出了極高的要求。
推理與數(shù)據(jù)治理的挑戰(zhàn):數(shù)據(jù)安全與可追溯性、內(nèi)容審核與合規(guī)性。
在AIGC應用的推理階段,企業(yè)面臨著數(shù)據(jù)安全、可追溯性、內(nèi)容審核和合規(guī)性等一系列挑戰(zhàn)。這些挑戰(zhàn)不僅關乎技術的有效實施,還直接影響到企業(yè)的信譽和合法運營。隨著數(shù)據(jù)泄露事件的頻繁發(fā)生,確保敏感信息的安全變得尤為重要。同時,數(shù)據(jù)的可追溯性也至關重要,這不僅有助于追蹤數(shù)據(jù)流向和處理過程,以評估數(shù)據(jù)安全性,還能在發(fā)生安全事件時迅速定位問題。
以一個基于AIGC技術的新聞自動生成平臺為例,該平臺能夠自動采集網(wǎng)絡上的新聞資訊,結(jié)合用戶的閱讀偏好生成個性化新聞內(nèi)容。存儲系統(tǒng)不僅需要對存儲的數(shù)據(jù)進行加密,還要記錄詳細的數(shù)據(jù)處理日志,以實現(xiàn)數(shù)據(jù)的可追溯性。在新聞內(nèi)容生成后,平臺還需要對內(nèi)容進行審核,確保不含有誤導性信息、侵權內(nèi)容或違反法律法規(guī)的信息。這就要求存儲系統(tǒng)能夠支持與內(nèi)容審核工具的高效集成,快速篩查和過濾內(nèi)容,同時還要有能力處理大量的內(nèi)容審核請求,保證審核的實時性和準確性。
正如上面所分析的那樣,在大模型、AIGC技術快速發(fā)展的背景下,數(shù)據(jù)存儲面臨著前所未有的挑戰(zhàn)。巨大的數(shù)據(jù)量、多樣化的數(shù)據(jù)類型、以及對高速訪問的迫切需求,都在推動存儲技術的創(chuàng)新和進步。為了應對這些挑戰(zhàn),業(yè)界從多個方面進行創(chuàng)新探索,主要集中在以下幾個方向:
高性能分布式存儲
為了應對PB級別數(shù)據(jù)量的處理需求,采用可擴展的分布式存儲系統(tǒng)成為了行業(yè)的共識。這類系統(tǒng)通過分散數(shù)據(jù)到多個節(jié)點上,不僅能夠提高存儲容量,還能通過并行處理提升數(shù)據(jù)訪問速度。這種存儲方案的核心優(yōu)勢在于其彈性擴展能力,可以根據(jù)需要動態(tài)調(diào)整資源,以應對數(shù)據(jù)量的不斷增長。
并行文件存儲
并行文件存儲系統(tǒng)通過允許多個進程同時對文件系統(tǒng)進行讀寫,大幅提高了數(shù)據(jù)處理的效率。這對于大模型訓練尤為關鍵,因為它能顯著縮短模型訓練的時間,加快迭代速度。
數(shù)據(jù)加速與緩存
數(shù)據(jù)加速器和緩存技術的應用,進一步提升了數(shù)據(jù)訪問速度,實現(xiàn)了快速數(shù)據(jù)加載和亞毫秒級的低延遲。通過將頻繁訪問的數(shù)據(jù)存放在更快的存儲介質(zhì)上,如SSD或內(nèi)存中,系統(tǒng)可以迅速響應數(shù)據(jù)請求,大幅提高AIGC應用的響應速度和用戶體驗。
多模態(tài)數(shù)據(jù)檢索分析
AIGC技術的一大特點是處理多模態(tài)數(shù)據(jù),如文本、圖片、視頻等。為此,提供多模態(tài)數(shù)據(jù)檢索和分析工具變得尤為重要。這些工具能夠幫助用戶快速找到所需數(shù)據(jù),優(yōu)化數(shù)據(jù)管理,提高數(shù)據(jù)的可用性和價值。
數(shù)據(jù)安全與合規(guī)工具
在AIGC領域,數(shù)據(jù)安全和合規(guī)性是不容忽視的重要問題。集成的內(nèi)容審核、數(shù)據(jù)加密和合規(guī)性工具能夠確保數(shù)據(jù)在整個生命周期中的安全性,同時滿足不同地區(qū)和行業(yè)的法律法規(guī)要求。這不僅保護了用戶隱私,也為企業(yè)的合法運營提供了保障。
這些方案的共同目標是構(gòu)建一個既能夠處理海量數(shù)據(jù),又能滿足高速訪問需求,同時確保數(shù)據(jù)安全和合規(guī)性的存儲基礎設施。

解除存儲瓶頸,AIGC應用才能騰飛
傳統(tǒng)推理
GPT-175B 模型約有 1750 億參數(shù),以半精度(FP16)格式計算,總計至少占 320GB(計算 1024 的倍數(shù))的存儲空間,所以需要至少 5 個 A100 GPU,且在推理時,每個 GPU 都起碼需要有 80GB 的內(nèi)存。大多數(shù)的實際推理部署會進行相關的模型精簡,業(yè)界常見的優(yōu)化方向包括量化、減枝、蒸餾等。

在經(jīng)典的AIGC場景,推理業(yè)務對于基礎平臺的關鍵需求從讀取變成了啟動。
- 高吞吐:通過啟上千個POD,并行對不同需求進行計算,單個POD的模型在10~100GB,一般需要數(shù)秒鐘啟動。對源存儲下載帶寬需求在100Gbps左右,性能密度達2Gbps/TiB
- 高彈性:訪問請求是由用戶觸發(fā),日常任務具有隨機性(峰值1~100K POD),對于killer app推理開銷遠大于訓練。
- Posix兼容性:大部分仿真軟件均采用posix協(xié)議并發(fā)訪問原始數(shù)據(jù)集
- 數(shù)據(jù)緩存:推理階段加載數(shù)據(jù)全部為模型數(shù)據(jù),緩存價值大
如果是多模態(tài)場景,可能會有一些存儲性能的需求。

在該場景,核心瓶頸是小文件大量寫入和刪除(mkdir、rmdir、create、remove):建議使用GPFS類文件存儲。
構(gòu)建AI應用的變化
構(gòu)建 AI 應用遠不只是調(diào)用模型 API,還有很多問題需要解決:

- 大模型只有“腦子”沒有“手臂”,無法在外部世界行動:搜索網(wǎng)頁、調(diào)用 API 還是查找數(shù)據(jù)庫,這些能力都無法被 大模型的 API 提供;
- 它的“腦子”也不完美,OpenAI 的訓練數(shù)據(jù)截止至 2021 年,并且沒有任何企業(yè)和個人的私有數(shù)據(jù),這讓模型只能根據(jù)自己的“記憶”回答問題,并且經(jīng)常給出與事實相悖的答案(幻覺)。一個解決方法是在 Prompt 中將知識告訴模型,但是這往往受限于 token 數(shù)量,在 GPT-4 之前一般是 4000 個字的限制。
- 私域的知識如何使用,意大利數(shù)據(jù)保護局Garante以涉嫌違反隱私規(guī)則為由,暫時禁止了ChatGPT。自三星電子允許部分半導體業(yè)務員工使用ChatGPT開始,短短20天有三起機密資料外泄事件。
- 黑盒大模型無法更新知識和修改,大模型本身對外是一個黑盒的模型,無法對部分數(shù)據(jù)進行修改或者刪除,如果需要更新知識和修改大模型的知識需要重新訓練,成本巨大。
當前最需要解決的是如何將大模型應用到各行各業(yè)的私域知識,這個需求帶火了向量數(shù)據(jù)庫這個領域,一夜之間所有的數(shù)據(jù)庫都變成了向量數(shù)據(jù)庫(優(yōu)勢熟悉的配方)。

Step 1——語料庫準備:
將與行業(yè)相關的大量知識或語料上傳至向量數(shù)據(jù)庫,儲存為向量化文本;
Step 2 ——問題輸入:
輸入的問題被Embedding引擎變成帶有向量的提問;
Step 3 ——向量搜索:
向量化問題進入提前準備好的向量數(shù)據(jù)庫中,通過向量搜索引擎計算向量相似度,匹配出Top N條語義最相關的Facts(向量數(shù)據(jù)庫是模糊匹配,輸出的是概率上最近似的答案)
Step 4 ——Prompt優(yōu)化:
輸出的Top N條Facts,和用戶的問題一起作為prompt輸入給模型。
Step 5、結(jié)果返回:
有記憶交互下得到的生成內(nèi)容更精準且緩解了幻覺問題。有記憶交互:當模型需要記憶大量的聊天記錄或行業(yè)知識庫時,可將其儲存在向量數(shù)據(jù)庫中,后續(xù)在提問時將問題向量化,送入向量數(shù)據(jù)庫中匹配相似的語料作為prompt,向量數(shù)據(jù)庫通過提供記憶能力使prompt更精簡和精準,從而使返回結(jié)果更精準。

大模型的向量數(shù)據(jù)庫市場
時間回轉(zhuǎn)到今年的Q1季度,2023.3.21,NVIDIA創(chuàng)始人兼CEO黃仁勛在2023 GPU技術大會(2023 GTC)上發(fā)表演講。并表示今年將推出新的向量數(shù)據(jù)庫RAFT。RAFT在此基礎上,還具有加速索引、數(shù)據(jù)加載和近鄰檢索等功能。黃仁勛認為:“對于自研大型語言模型的組織而言,向量數(shù)據(jù)庫至關重要?!彼偨Y(jié):“初創(chuàng)公司競相構(gòu)建具有顛覆性的產(chǎn)品和商業(yè)模式,而老牌公司則在尋求應對之法——生成式AI引發(fā)了全球企業(yè)制定AI戰(zhàn)略的緊迫感?!?/span>
在OpenAI ChatGPT plugins 發(fā)布的官方文章中,Milvus 和 Zilliz Cloud 同時作為首批插件合作伙伴被提及成為唯一一家開源項目與商業(yè)化云產(chǎn)品同時入選的向量數(shù)據(jù)庫公司。而在近一個月之內(nèi),向量數(shù)據(jù)庫迎來了融資潮。Qdrant 、Chroma 和 Weaviate 紛紛獲得融資;而 Pinecone 也正式官宣了新的 1 億美金 B 輪融資,估值達到了 7.5 億美元。

從langchain的推薦可以看出,現(xiàn)在這個市場還是一個諸侯混戰(zhàn),百花齊放的市場,到底該把賭注押寶到哪個生態(tài)才是重中之重。
再回頭看中國區(qū)這個大市場,基礎模型一定是以云廠商提供,或者少量大模型云下私有化部署,如何適配其實顯而易見:配套自己的云上大模型,其次,適配一些國家科研機構(gòu)的大模型線下輸出。



































