偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GenAI應用構建者必須解決新的RAG復雜性 原創(chuàng)

發(fā)布于 2024-8-12 09:49
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

盡管RAG通過增強生成式AI應用的專業(yè)化和準確性帶來了顯著的好處,但它也帶來了一系列復雜的挑戰(zhàn)。

檢索增強生成(RAG)正迅速成為生成式AI應用的一個必要元素。RAG通過從基礎模型的訓練語料庫之外的外部數(shù)據(jù)存儲中增強相關信息,賦予預訓練AI模型專業(yè)化的超級能力,使其在垂直或特定任務應用中精確和準確。然而,RAG也為您的GenAI堆棧引入了關于流量、安全和性能的新要求。隨著RAG的到來,企業(yè)需要用更復雜的AI基礎設施來解決新的復雜性和挑戰(zhàn)。

1.RAG為什么火

RAG的工作原理是通過增強AI推理,使用來自不包含在基礎模型訓練語料庫中的外部數(shù)據(jù)存儲的相關信息。這種方法為AI模型提供了特定領域的知識,而不需要重新訓練通用模型。一般來說,RAG模型生成的響應在上下文中更豐富、更準確、事實一致性更強。RAG甚至可以用于提高開放域AI應用的性能。RAG還通過減少對模型內(nèi)數(shù)據(jù)存儲的需求,使AI推理更有效率。這有幾個有益的溢出效應。

RAG模型可以更小、更高效,因為它們不需要在參數(shù)中編碼所有可能的知識。相反,它們可以根據(jù)需要動態(tài)獲取信息。這可以導致內(nèi)存需求減少和計算成本降低,因為模型不需要在內(nèi)部存儲和處理大量信息。

  • 較低的訓練成本:雖然檢索機制主要在推理期間使用,但能夠訓練依賴于外部數(shù)據(jù)源的較小模型可以降低整體培訓成本。較小的模型通常需要較少的計算能力和時間來訓練,從而節(jié)省成本。
  • 可擴展性:RAG架構可以通過在生成模型和檢索系統(tǒng)之間分布負載來更有效地擴展。這種分離允許更好的資源分配和優(yōu)化,減少任何單個組件的總體計算負擔。
  • 輕松更新:由于RAG使用可以輕松更新的外部知識庫,因此無需頻繁地重新訓練整個模型以納入新信息。這減少了持續(xù)、昂貴的再培訓過程的需求,允許成本高效的模型知識更新。
  • 實時相關性:由于訓練模型所需的時間,許多類型的數(shù)據(jù)相對較快地過時。通過實時抓取數(shù)據(jù),RAG確保用于生成的信息始終是最新的。這也使GenAI應用更適合實時任務,如汽車中的逐轉(zhuǎn)向指導或天氣報告,僅舉兩個例子。

雖然RAG的好處是顯而易見的,但添加一個有效的查詢、路由和流量管理新層增加了復雜性和安全挑戰(zhàn)。

2.流量管理

RAG的一個主要挑戰(zhàn)是管理流量的復雜性增加。RAG架構依賴于實時檢索相關文檔或信息。這可能會導致數(shù)據(jù)流量大幅增加,如果不加以適當管理,可能會導致瓶頸。這也意味著應用程序的性能不僅取決于最終用戶從延遲和響應性角度體驗到的內(nèi)容,還取決于信息質(zhì)量。如果RAG速度慢,GenAI可能仍然響應,但輸出質(zhì)量較低。

3.安全和合規(guī)性問題

將RAG集成到GenAI應用中時,安全是另一個主要關注點。檢索通常需要訪問專有數(shù)據(jù)庫或知識庫,增加了潛在的攻擊面。確保這些數(shù)據(jù)源的完整性和安全性對于防止數(shù)據(jù)泄露或未經(jīng)授權的訪問至關重要。如果被訪問的數(shù)據(jù)受到金融或醫(yī)療保健行業(yè)等監(jiān)管要求的約束,RAG還可能引入新的合規(guī)性問題。RAG層通常是這些數(shù)據(jù)的邏輯位置,但這也意味著RAG數(shù)據(jù)庫必須符合所有必要的法規(guī)(HIPAA、Gramm-Leach Bliley、SOC2等)。

團隊應采用強大的身份驗證和授權機制來保護其RAG基礎設施和數(shù)據(jù)檢索過程。這也意味著為訪問RAG堆棧的任何服務(內(nèi)部或外部)采用強大的API安全。對RAG數(shù)據(jù)進行傳輸和靜止時的加密可以保護敏感信息。由于RAG是大部分敏感數(shù)據(jù)所在的地方,因此這也是實施更嚴格的身份驗證策略和零信任部署的好地方。

4.數(shù)據(jù)質(zhì)量和相關性

RAG系統(tǒng)的有效性在很大程度上取決于它檢索的數(shù)據(jù)質(zhì)量。質(zhì)量差或不相關的數(shù)據(jù)可能會導致生成模型輸出不準確或無意義。對于實時應用,數(shù)據(jù)的時效性也至關重要。如果RAG系統(tǒng)是從第三方數(shù)據(jù)源拉取的,那么GenAI應用就會受到供應鏈數(shù)據(jù)質(zhì)量風險的影響。對于企業(yè)應用或醫(yī)學、法律等敏感領域的應用,對由于數(shù)據(jù)質(zhì)量差而導致的不良響應的容忍度幾乎為零。

為了克服這一點,團隊應投資于維護高質(zhì)量和最新的數(shù)據(jù)源,并構建帶有冗余質(zhì)量檢查的自動化數(shù)據(jù)管道。他們還應該持續(xù)監(jiān)控用戶行為和反饋,以發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題。對系統(tǒng)輸出的連續(xù)監(jiān)控和評估也可以提供需要改進的領域的見解。

5.不要被RAG搞得精疲力盡

如果你正在提供GenAI應用程序,您可能已經(jīng)在現(xiàn)在或?qū)淼哪硞€時候使用了RAG。好處是巨大的。然而,成功的RAG推出需要規(guī)劃和思考。盡管RAG通過增強生成式AI應用的專業(yè)化和準確性帶來了顯著的好處,但它也帶來了一系列復雜的挑戰(zhàn)。有效的流量管理、嚴格的安全措施、性能優(yōu)化、確保數(shù)據(jù)質(zhì)量和處理集成復雜性對于在GenAI堆棧中成功實施RAG至關重要。對于正在努力解決GenAI挑戰(zhàn)的應用程序交付團隊來說,RAG是一個強大的方法,可以使AI應用程序中的幾乎所有內(nèi)容都運行得更好——只要有適當?shù)臏蕚浜托膽B(tài)。

本文轉(zhuǎn)載自??51CTO技術棧??,作者:言征


?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦