偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="boldn"></style><style id="boldn"><rp id="boldn"></rp></style>

<sub id="boldn"></sub>

<nobr id="boldn"><tr id="boldn"><abbr id="boldn"></abbr></tr></nobr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

推動大模型自我進化，北理工推出「流星雨計劃」

作者：機器之心 2024-12-05 13:30:00

人工智能新聞

本文將介紹來自北京理工大學計算機科學與技術學院的流星雨研究計劃。該計劃旨在深入研究大模型自我進化的理論與方法，推動大模型的發(fā)展。

在人類個體能力提升過程中，當其具備了基本的技能之后，會自主地與環(huán)境和自身頻繁交互，并從中獲取經(jīng)驗予以改進。大模型自我進化研究之所以重要，正是源于該思想，并且更傾向于探究大模型自身能力的深度挖掘和擴展?；谶@一趨勢，北京理工大學 DIRECT LAB 正式啟動了「大模型自我進化」的流星雨研究計劃。這篇文章以代碼大模型和垂域大模型進化為例，逐步介紹流星雨計劃。

SRA-MCTS：推動代碼大模型自我進化

論文標題：SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
論文地址：https://arxiv.org/pdf/2411.11053
代碼開源：https://github.com/DIRECT-BIT/SRA-MCTS
8B 模型的數(shù)據(jù)開源：https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B

代碼大模型應用范圍廣、影響大，如何提升其表現(xiàn)，一直備受業(yè)內外關注。在一項最新的研究中，來自北京理工大學的研究者提出了一種全新的思路 ——SRA-MCTS，旨在通過自我進化的方式，解決代碼模型在處理復雜問題時缺少中間推理過程。

核心觀點：自我進化的力量

跟隨上述自我進化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）方法中，作者無需借助額外的任何監(jiān)督信號、完全通過模型自身來進行推理路徑生成，并進一步迭代大模型的能力。通過這個過程，模型能夠自主地生成高質量的推理路徑，并將這些路徑轉化為可執(zhí)行代碼，進而提升在復雜任務上的成功率。

整個過程不僅增強了模型的推理能力，還通過自我反饋和反思提升了解決復雜任務的成功率。實驗表明，即使在小規(guī)模模型中，SRA-MCTS 也能顯著提升任務處理能力，特別是在多樣性和解決復雜問題的能力上。

突出貢獻與顯著成就：

無需外部監(jiān)督：與傳統(tǒng)方法不同，SRA-MCTS 完全依賴模型自身的推理能力進行數(shù)據(jù)生成和訓練，避免了對人工標注數(shù)據(jù)或額外監(jiān)督信號的依賴。
自我進化與持續(xù)提升：通過反復生成推理路徑并進行自我訓練，模型形成了一個正向反饋循環(huán)，實現(xiàn)了性能的持續(xù)提升，尤其在較小模型中也展現(xiàn)出強大的潛力。
提升復雜任務解決能力：文中的方法在多種規(guī)模的模型上均展現(xiàn)出了顯著的性能提升，特別是在解決需要分析的任務時，SRA-MCTS 顯著提高了成功率。
驗證了小模型自我合成的潛力：實驗分別在小模型（2B, 8B, 14B）上自我數(shù)據(jù)合成并進行訓練，對比了 70B 模型的數(shù)據(jù)蒸餾結果。結果表明，小模型自我合成的數(shù)據(jù)訓練結果可以超越大模型數(shù)據(jù)蒸餾的能力。

工作思想與實現(xiàn)方式

該方法核心在于將推理過程和數(shù)據(jù)生成緊密結合，通過 SRA-MCTS 引導模型自主生成推理路徑。這不僅穩(wěn)定了分析的準確性下限，還為模型提供了一個無需外部監(jiān)督的自我改進機制。實驗結果表明，即使在傳統(tǒng)的思維鏈（CoT）方法表現(xiàn)退化時，SRA-MCTS 依然能夠穩(wěn)定并有效地提升模型的性能，尤其在「pass@10」等多樣性指標上表現(xiàn)出色。

1. 數(shù)據(jù)合成 - SRA-MCTS：

選擇階段：使用 UCB1 公式，從推理樹中選擇最優(yōu)節(jié)點，作為推理的起點。
擴展階段：基于選擇的節(jié)點，生成新的推理步驟，形成新的推理計劃。
評估與反思階段：評估每個生成的推理步驟的質量，并通過反思機制修正推理過程，確保其正確性與連貫性。
反向傳播階段：通過反饋機制調整生成過程，強化推理路徑的質量。

下面的示例展示了中間推理步驟，以及基于推理所生成的代碼過程：

問題：請幫我寫一段拓撲排序的代碼。

思考過程：拓撲排序是針對有向無環(huán)圖（DAG）的一種排序算法，它將圖中的節(jié)點按照某種順序排列，使得對于每一條有向邊 (u, v)，節(jié)點 u 在節(jié)點 v 之前出現(xiàn)。常見的拓撲排序算法有兩種：Kahn 算法和深度優(yōu)先搜索（DFS）算法。這里作者選擇使用 Kahn 算法來實現(xiàn)，因為它更直觀且容易理解。

Kahn 算法的基本思想是：

找出所有入度為 0 的節(jié)點，將它們加入隊列。從隊列中取出一個節(jié)點，將其加入拓撲排序結果中。對于該節(jié)點的所有鄰接節(jié)點，減少其入度。如果某個鄰接節(jié)點的入度變?yōu)?0，則將其加入隊列。重復步驟 2 和 3，直到隊列為空。如果最終拓撲排序的結果中包含所有節(jié)點，則說明圖是 DAG；否則，圖中存在環(huán)。

? 找出所有入度為 0 的節(jié)點，將它們加入隊列。

? 從隊列中取出一個節(jié)點，將其加入拓撲排序結果中。

? 對于該節(jié)點的所有鄰接節(jié)點，減少其入度。如果某個鄰接節(jié)點的入度變?yōu)?0，則將其加入隊列。

? 重復步驟 2 和 3，直到隊列為空。

? 如果最終拓撲排序的結果中包含所有節(jié)點，則說明圖是 DAG；否則，圖中存在環(huán)。

from collections import deque, defaultdict

def topological_sort(graph):
    # Step 1: 計算每個節(jié)點的入度
    in_degree = {node: 0 for node in graph}
    for node in graph:
        for neighbor in graph[node]:
            in_degree[neighbor] += 1
    
    # Step 2: 將所有入度為 0 的節(jié)點加入隊列
    queue = deque([node for node in in_degree if in_degree[node] == 0])
    
    # Step 3: 初始化結果列表
    topo_order = []
    
    # Step 4: 處理隊列中的節(jié)點
    while queue:
        node = queue.popleft()
        topo_order.append(node)
        
        # 更新鄰接節(jié)點的入度
        for neighbor in graph[node]:
            in_degree[neighbor] -= 1
            if in_degree[neighbor] == 0:
                queue.append(neighbor)
    
    # Step 5: 檢查是否存在環(huán)
    if len(topo_order) == len(graph):
        return topo_order
    else:
        raise ValueError("Graph contains a cycle, topological sorting is not possible.")

推理轉化為代碼：在數(shù)據(jù)合成的階段生成的自然語言推理步驟，經(jīng)過大模型轉化為具體的代碼，實現(xiàn)從推理到執(zhí)行的轉化。
訓練階段：最終，生成的推理路徑和代碼會被結合起來，形成一個高質量的訓練數(shù)據(jù)集，用于進一步微調大語言模型。

上面的工作是代碼模型的自主推理能力。作者表示，他們期待探究更通用化的自我進化框架和方法，使其在各種場景中都可以被廣泛使用。

流星雨計劃

論文：https://arxiv.org/abs/2411.11933
Github 鏈接：https://github.com/DIRECT-BIT/METEOR

該計劃提出一個由弱到強的進化框架來引導大模型自我進化的整體流程，方法如下圖所示：

該流程提供了一整套從無領域能力進化成領域專家模型的自我進化訓練方案，包含三個關鍵階段：

第一階段：導師監(jiān)督學習，旨在賦予模型基本的領域知識，讓模型能夠完成領域任務；
第二階段：自我評估能力習得，通過借助通用大模型的指導，進一步迭代訓練學習，賦予模型自我評判的能力；
第三階段：自我提升訓練，通過自我批判完成自我進化。

第一階段：導師監(jiān)督學習

知識蒸餾是一種有效的獲取領域知識的手段。然而作者發(fā)現(xiàn)，強模型與弱模型之間存在認知偏差，導致從強模型中蒸餾下來的領域數(shù)據(jù)無法高效作用于弱模型。

作者提出了 weak-to-strong 的領域數(shù)據(jù)蒸餾方法，讓強模型根據(jù)弱模型的指導蒸餾領域數(shù)據(jù)。具體的，當有一個領域問題時，他們首先將該問題輸入弱模型，但不讓其直接生成答案，而是生成一段 guideline。這段 guideline 指示弱模型認為應該遵循哪些步驟來回答領域問題。接下來，他們將生成的 guideline 與領域問題一起輸入強模型。強模型根據(jù) guideline 的指導步驟生成領域問題的答案，或在 guideline 的基礎上進行修正并生成答案。

第二階段：自我評估能力習得

經(jīng)過蒸餾后的領域數(shù)據(jù)訓練的模型能夠完成一定的領域任務，但經(jīng)過分析，該模型還可能產(chǎn)生大量錯誤信息或幻覺信息，并且無法進行自我糾正。因此，作者提出要在這一階段通過更強模型的反饋來糾正模型內部的錯誤知識，進一步提升模型領域性能。

他們參考 StaR [1] 迭代式訓練的方法，讓模型首先對領域問題進行作答，并由 GPT-4 給予答案反饋。如果模型的答案是錯誤的，GPT-4 會將修改建議連同前一輪的答案重新返回給模型，讓模型重新作答，直至模型產(chǎn)生正確的答案。整個過程的數(shù)據(jù)會被保存下來迭代式地訓練模型，使得模型的領域能力不斷提升。

第三階段：自我提升訓練

作者希望模型在最終的領域能力進化過程中能夠擺脫對強模型的依賴，實現(xiàn)完全的領域能力自我進化。因此，在模型具有完成自我批判的能力后，他們嘗試讓模型進行自我進化。

受到在推理過程中增加 FLOPs 可以有效提升模型在下游任務中的性能的啟發(fā)，他們認為不同的推理策略會產(chǎn)生不同的效果。他們希望模型生成的結果盡可能接近高 FLOPs 推理策略的結果，遠離低 FLOPs 策略的結果。他們使用 beam search 作為高 FLOPs 策略，greedy search 作為低 FLOPs 策略，通過對比學習構建模型的自我訓練方法，實現(xiàn)模型的自我進化。

性能分析

作者對比了應用 Meteor 進化方法后 LLM 前后各維度的性能變化。在準確性、完整性、相關性、連貫性和可靠性方面，LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了性能的提升（評估方法：通過 GPT-4 篩選進化前和進化后答案的 win rate）。

未來工作

該工作初步探索和嘗試了模型進化的整體框架和每個階段的對應方法，并有了一些初步的結論。未來，作者將在該想法的基礎上，在每個階段中創(chuàng)新更適用的模型自我進化方法，實現(xiàn)模型在各個階段都能獲得預期的性能提升，并在更多不同的場景中探索 Meteor 的適用性，推廣流星雨計劃。

作者表示，DIRECT LAB 期待與更多對大模型進化感興趣的學者和業(yè)界同仁攜手合作，共同推進這一重要領域的探索與突破。實驗室相關研究的代碼和數(shù)據(jù)已公開，歡迎大家訪問：https://github.com/DIRECT-BIT

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<ruby id="lrebr"></ruby>

<button id="lrebr"><sup id="lrebr"><input id="lrebr"></input></sup></button>

<s id="lrebr"><li id="lrebr"></li></s>