偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI在RAG技術上的最佳實踐與策略 原創(chuàng)

發(fā)布于 2024-7-10 07:01
瀏覽
0收藏

隨著人工智能技術的不斷演進,大型語言模型(LLM)的性能優(yōu)化已成為AI領域的熱點問題。OpenAI的技術專家團隊分享了他們在檢索增強生成(RAG)技術、提示工程和微調方面的最佳實踐,為提升模型性能提供了寶貴的經(jīng)驗和策略。

OpenAI在RAG技術上的最佳實踐與策略 -AI.x社區(qū)


一、微調技術的最新進展

John Allard深入介紹了OpenAI在微調領域的最新進展,包括:

  • 函數(shù)調用數(shù)據(jù)的微調:通過特定數(shù)據(jù)集的微調,優(yōu)化模型對特定函數(shù)調用的理解。
  • 持續(xù)微調:提供了一種機制,允許模型隨著時間的推移不斷適應新數(shù)據(jù)。
  • 平臺內全UI微調:通過用戶界面的直接操作,簡化了微調過程,提高了效率。

二、優(yōu)化LLM性能的挑戰(zhàn)

Colin細致討論了優(yōu)化大型語言模型的挑戰(zhàn),包括:

  • 信號與噪聲的分離:在大量數(shù)據(jù)中識別有效信號,濾除干擾噪聲。
  • 性能衡量的復雜性:確立合理的性能評估標準,確保模型優(yōu)化方向的正確性。
  • 解決問題的策略選擇:面對多種可能的解決方案,如何做出最合適的選擇。

三、RAG技術的應用與案例分析

RAG技術通過結合Embeddings技術和向量數(shù)據(jù)庫,顯著提升了信息檢索的效率和準確性。案例分析包括:

客戶需求1:

OpenAI在RAG技術上的最佳實踐與策略 -AI.x社區(qū)

  • 問題描述:基于大量文檔的知識檢索需求,要求模型僅從這些文檔中檢索信息。
  • 解決方案
  • 直接將PDF和docx文件嵌入,準確率是45%。
  • 2. 經(jīng)過20次調優(yōu)迭代,解決細節(jié)小Bug - 準確率到65%
  • 3. 基于規(guī)則進行優(yōu)化,譬如先判斷問題屬于什么領域(退一步思考),然后再回答,效果提升到85%
  • 4. 發(fā)現(xiàn)數(shù)據(jù)里有一些是結構化數(shù)據(jù)(如表格),為此定制提取解決,準確率提升到98%
    總結:通過直接嵌入文件、迭代調優(yōu)、規(guī)則優(yōu)化和結構化數(shù)據(jù)的定制提取,逐步提升檢索準確率。

客戶需求2:

  • 問題描述:文本生成SQL的需求,即根據(jù)自然語言問題和數(shù)據(jù)庫模式生成正確的SQL查詢。
  • 解決方案
  • 首先,我們用最簡單的方法,比如余弦相似性,尋找類似問題的SQL查詢,進行問題相似性搜索。我們測試了不同的嵌入和提示工程,但結果不太好。后來,我們意識到不同的數(shù)據(jù)庫模式對問題的答案可能完全不同。
  • 所以針對一個問題進行相似性搜索意義不大,但用預設答案進行搜索可能效果更好。我們使用預設的文檔嵌入,生成一個假設的SQL查詢進行相似性搜索,性能大大提升。對于這個特定問題,我們嘗試了上下文檢索通過簡單過濾將問題按難度排名,只帶回同等難度的例子,這帶來了改進。
  • 我們還嘗試了一些先進技術,比如鏈式推理,讓系統(tǒng)識別列、表,最后構建查詢。但我們決定采用更簡單的方法進行自我一致性檢查,讓系統(tǒng)構建查詢并運行,出錯時給出提示,再次嘗試。

OpenAI在RAG技術上的最佳實踐與策略 -AI.x社區(qū)

  • 我們從69%開始,然后添加了一些示例,得到了幾個改進點,這表明RAG可以進一步改進。我們嘗試這個問題,看到性能提升了3%,然后使用答案,假設的文檔嵌入使我們進一步提升了5%。
  • 我們決定試試微調,看能否更進一步。先建立了我們的基線,與上圖里的69%基線一樣,使用簡單的提示工程技術。然后,用簡單的提示工程對GPT-4進行微調,結果模型準確率提升到接近82%。
  • 再稍微調整模型使用um rag技術,把一些示例動態(tài)注入上下文窗口,準確率達到83.5%。這些都很簡單,沒有復雜的數(shù)據(jù)預處理或后處理。結果顯示簡單的微調和提示工程也能接近最先進的技術。

OpenAI在RAG技術上的最佳實踐與策略 -AI.x社區(qū)

總結:采用問題相似性搜索、預設答案搜索、上下文檢索和鏈式推理等方法,有效提升查詢生成的性能。

四、評估和優(yōu)化RAG系統(tǒng)的方法

John和Colin評估和優(yōu)化RAG系統(tǒng)的方法,強調了數(shù)據(jù)質量的重要性,提出了評估RAG系統(tǒng)的多個維度:

  • 模型測試分數(shù):評估模型在特定任務上的表現(xiàn)。
  • 檢索相關性:衡量檢索到的內容與問題的相關程度。
  • 生成內容的準確性:評估生成答案的事實準確性。
  • 檢索內容的信號與噪聲比:評估檢索到的信息的有用性。
  • OpenAI在RAG技術上的最佳實踐與策略 -AI.x社區(qū)

五、實戰(zhàn)指導參考流程

優(yōu)化LLM性能并不總是線性的,有時需要結合使用提示工程、RAG和微調。當你想提高語言模型(LM)的性能時,可以參考如下順序調優(yōu)。

  • 提示工程技術:作為開始的好地方,技術投資小,能夠快速迭代,驗證解決問題的可行性。
  • RAG技術:私有化、數(shù)據(jù)安全考慮時使用,增加允許模型訪問特定領域的內容,提升專業(yè)知識檢索能力。
  • 微調技術:還需進一步提升系統(tǒng)準確率,強化模型遵循一致指令的能力,提升特定領域的專業(yè)性使用。
  • 預訓練:成本最高,如果不是特殊要求一般不建議采用?

總結:

這次的分享不僅展示了提高大型語言模型性能的多種技術手段,也強調了在實際應用中根據(jù)業(yè)務場景靈活選擇和組合技術的重要性。通過深入理解和應用這些策略,我們可以更有效地優(yōu)化AI模型,推動AI技術的發(fā)展和應用。


本文轉載自公眾號頂層架構領域

原文鏈接:??https://mp.weixin.qq.com/s/pJk695aJUkR4g-tXwaiJaA??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦