偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從少樣本到千樣本!MachineLearningLM給大模型上下文學習裝上「機器學習引擎」

人工智能 新聞
這項名為 MachineLearningLM 的新研究提出了一種輕量且可移植的「繼續(xù)預訓練」框架,無需下游微調即可直接通過上下文學習上千條示例,在金融、健康、生物信息、物理等等多個領域的二分類 / 多分類任務中的準確率顯著超越基準模型(Qwen-2.5-7B-Instruct)以及最新發(fā)布的 GPT-5-mini。

盡管大型語言模型(LLM)擁有廣泛的世界知識和強大的推理能力,被廣泛視為優(yōu)秀的少樣本學習者,但在處理需要大量示例的上下文學習(ICL)時仍存在明顯局限。

已有工作表明,即使提供多達上百甚至上千條示例,LLM 仍難以從中有效學習規(guī)律,其表現(xiàn)往往很快進入平臺期,甚至對示例的順序、標簽偏差等較為敏感。在利用上下文學習解決新任務時,LLM 往往更依賴于自身的強先驗以及示例的表面特征,而難以真正挖掘出示例中潛在的因果機制或統(tǒng)計依賴。

這項名為 MachineLearningLM 的新研究突破了這一瓶頸。該研究提出了一種輕量且可移植的「繼續(xù)預訓練」框架,無需下游微調即可直接通過上下文學習上千條示例,在金融、健康、生物信息、物理等等多個領域的二分類 / 多分類任務中的準確率顯著超越基準模型(Qwen-2.5-7B-Instruct)以及最新發(fā)布的 GPT-5-mini。

相比于已有的用于表格數(shù)據(jù)的機器學習方法,MachineLearningLM 幾乎完全保留了 LLM 通用能力,這意味著它可以無縫集成到更復雜的對話工作流中。

  • 論文鏈接: https://arxiv.org/abs/2509.06806
  • 模型和數(shù)據(jù)集: https://huggingface.co/MachineLearningLM
  • 代碼: https://github.com/HaoAreYuDong/MachineLearningLM

核心創(chuàng)新一:百萬級合成任務「授人以漁」

研究團隊旨在賦予 LLM 一種「舉一反三」的元能力 —— 不依賴對真實任務數(shù)據(jù)的機械記憶,而是通過海量且多樣化的合成任務,從根本上訓練模型在大量上下文示例中挖掘規(guī)律并進行預測的能力。

傳統(tǒng)的指令微調方法通常基于有限規(guī)模(約為千數(shù)量級)的真實任務數(shù)據(jù),這在很大程度上限制了模型向新任務的泛化能力。與之相比,MachineLearningLM 構建了一個超過 300 萬合成任務的大規(guī)模預訓練語料庫。

任務生成器基于結構因果模型(Structural Causal Model, SCM)來采樣生成二分類及多分類任務。SCM 通過有向無環(huán)圖(DAG)和結構方程(采用神經(jīng)網(wǎng)絡與樹模型實現(xiàn))明確定義變量間的因果關系,能夠精確控制特征的邊際分布、類型(如數(shù)值型或類別型)以及標簽生成機制。

該方法確保預訓練數(shù)據(jù)與下游真實評估集沒有任何重疊,從而保證評估過程對模型泛化能力的檢驗具備充分公平性。同時,通過控制示例數(shù)量從數(shù)個到 1024 個不等,該機制能夠專門訓練模型處理「多示例」場景的推理能力。

 核心創(chuàng)新二:隨機森林模型「循循善誘」

在海量合成任務上直接訓練大型語言模型(LLM)容易因任務質量不一致 —— 例如存在信號微弱或類別極度不平衡等情況 —— 而導致訓練崩潰或陷入局部最優(yōu)。為解決這一問題,本研究引入隨機森林(Random Forest)模型,利用其強大且穩(wěn)健的建模能力,設計了如下兩級過濾機制:

  • 樣本級共識過濾(熱身訓練階段):在熱身訓練中,為每個合成任務訓練一個隨機森林模型,并引導 LLM 學習模仿其預測行為。具體而言,僅保留隨機森林預測結果與真實標簽一致的那些樣本用于 LLM 的訓練。該方法通過提供清晰且高置信度的監(jiān)督信號,使 LLM 初步建立起準確的上下文建模能力,尤其是數(shù)值建模能力,為后續(xù)過渡到自主上下文學習奠定基礎。
  • 任務級過濾(全程訓練階段):在整個訓練過程中,除為每個任務構建隨機森林模型外,還引入保守隨機基線(如隨機猜測或坍塌到多數(shù)類的預測方法),以剔除那些隨機森林表現(xiàn)未顯著優(yōu)于基線的無效任務。評估指標包括機會校正一致性、失衡魯棒準確率、宏平均準確率以及避免預測坍塌等指標。

為何選擇隨機森林?除了強大且穩(wěn)健的建模能力,隨機森林具有高度透明的決策過程,可分解為清晰的規(guī)則路徑與特征重要性評估,這種可解釋性與 LLM 的思維鏈(Chain-of-Thought, CoT)推理模式天然契合,有助于后續(xù)推進思維鏈預測及解釋性預測任務。

同時,隨機森林能夠提供預測置信度,為進一步減少 LLM 幻覺問題引入置信度機制提供了可能。

核心創(chuàng)新三:高效上下文示例編碼「多維擴容」

在大模型時代,如何高效地在上下文學習中處理海量表格數(shù)據(jù),是一項重要挑戰(zhàn)。傳統(tǒng)的「自然語言描述」方式(例如:「收入是 29370,職業(yè)是博士,年增長率是 - 12.34% → 標簽:1」),占用 token 多、計算開銷大,嚴重限制了實際應用中可支持的示例數(shù)量;數(shù)值型特征經(jīng)分詞器處理時,一個小數(shù)可能被拆成多個 token,既浪費長度又可能導致數(shù)值比較錯誤,如模型容易誤認為「1.11」(1|.|11)比「1.9」(1|.|9)大。

為此,作者提出了三項核心優(yōu)化策略,顯著提升了上下文學習的數(shù)據(jù)容納能力與推理效率:

  • 告別「小作文」,樣本用表格來組織: SpreadsheetLLM 等研究已廣泛證明,LLM 能很好地理解結構化表格,因此作者放棄相關工作將結構化數(shù)據(jù)展開成冗長自然語句的做法,轉而采用緊湊的表格編碼格式。

  • 把數(shù)字「打包」成整數(shù),告別 token 碎片化:先遵循機器學習工程的常見操作,將所有數(shù)值基于訓練集數(shù)據(jù)分布逐列進行 z-score 標準化;然后將 z-norm 下 ±4.17(絕大多數(shù)情況)的浮點數(shù)區(qū)間整體線性映射到 [0, 999] 的整數(shù)區(qū)間。這樣,每個數(shù)值在 GPT 和 LLaMA 3 的詞表中僅需 1 個 token 表示(Qwen 分詞器也僅需 1 到 3 個 token),既節(jié)省空間,還避免了小數(shù)點和正負號單獨切詞帶來的數(shù)值理解錯誤。該流程只是改進了傳統(tǒng)機器學習中的數(shù)值標準化,而沒有改變 LLM 原生分詞器,因此模型的數(shù)值推理能力可以全部繼承。

  • 推理也要「團購」:序列級批量預測——傳統(tǒng)上下文學習一次只處理一個查詢,在多樣本學習時效率極低。作者將多個查詢(如 50 條)拼成一條序列,統(tǒng)一前向推理,一次性輸出所有預測結果。這不僅大幅提升推理速度,還能在訓練階段提高自回歸穩(wěn)定性。

驚艷效果:多項能力突破

MachineLearningLM 的繼續(xù)預訓練方案無需改變模型架構或分詞器,只使用了 Qwen2.5-7B 基座模型和低秩適配(LoRA rank=8)這種輕量級配置,MachineLearningLM 展現(xiàn)出了前所未有的上下文樣本利用能力:

  • 「千示例」上下文學習:模型性能隨著提供的示例數(shù)量增加而持續(xù)穩(wěn)定提升,從 8 條示例到 1024 條示例,準確率單調增長。這樣的上下文樣本效率是已有 LLM 都難以做到的。 
  • 遠超 GPT-5-mini 等強大基準模型:在金融、生物信息、物理信號和醫(yī)療健康等領域的表格分類任務上,其純上下文學習的準確率平均超越 GPT-5-mini 等強大基準模型約 13 到 16 個百分點。
  • 在無需任何任務特定訓練的情況下,其準確率已能達到與需要任務級參數(shù)更新的隨機森林模型相差無幾的水平(平均相對差距在 2% 以內),并顯著優(yōu)于 K 近鄰(kNN)算法。
  • 通用能力無損:最關鍵的是,注入 ML 能力后,模型原有的對話、知識和推理能力幾乎完好無損。在 MMLU 基準測試中,其零樣本準確率達 73.2%,50 樣本設置下達 75.4%,與基準通用 LLM(Qwen-2.5-7B-Instruct)持平,甚至在特定領域(如統(tǒng)計和物理)有一定提升,這意味著它可以無縫集成到更復雜的對話工作流中。

  • 實證研究表明,MachineLearningLM 能夠同時處理數(shù)值特征與自然語言描述,無需像傳統(tǒng)方法那樣對文本進行分桶或轉換為嵌入向量,實現(xiàn)了真正的異構(多模態(tài))輸入推理。然而,該模型仍存在一定局限,例如在面對非獨立同分布的時間序列數(shù)據(jù)以及類別數(shù)量極其龐大的數(shù)據(jù)集時,性能尚有待提升,這也為后續(xù)研究指明了改進方向。

應用領域

基于大幅提升的多樣本上下文學習和數(shù)值建模能力,MachineLearningLM 有望在金融、醫(yī)療健康與科學計算等廣泛場景中擴展大型語言模型的實際應用邊界。

未來展望

MachineLearningLM 為未來研究開辟了多個充滿潛力的方向。以下是論文里列出的幾個重點方向:

  1. 超越文本與數(shù)字:合成多模態(tài)分類任務,使 MachineLearningLM 能夠直接在海量合成數(shù)據(jù)上練習處理異構信號的多模態(tài)上下文預測,這依然可以建立在表格預測的框架之上,例如利用 HTML 表格來嵌入圖像。
  2. 通過系統(tǒng)優(yōu)化突破上下文長度限制:例如采用張量 / 流水線并行、高效內存注意力與 KV 緩存等系統(tǒng)優(yōu)化技術。
  3. 不確定性預測 (Uncertainty):預測的同時輸出置信度(比如利用隨機森林的置信度做熱身訓練),以減少模型 OpenAI 近期提出的由于缺乏承認不確定性(Honesty about uncertainty)引發(fā)的幻覺(Hallucination)。
  4. 提升可解釋性 (Interpretability):敘事蒸餾與推理增強學習,既可以利用底層的 SCM(變量、關系與機制)作為預測任務的輔助目標,也可以從集成模型中蒸餾規(guī)則,形成緊湊、人類可讀的推理鏈條。
  5. 集成檢索增強方法(RAG):為 MachineLearningLM 集成一個檢索模塊,使其能在預訓練和推理時動態(tài)注入最相關的示例。
  6. 賦能智能體(Agent):與 Agent 記憶機制(Memory)深度融合,提升其在復雜環(huán)境中利用多樣本的上下文學習,賦予智能體強大的從大量經(jīng)驗記憶中挖掘和學習的能力。

作者介紹

本文作者:董浩宇(中國科學院大學)、張鵬昆(華南理工大學)、陸明哲(中國科學院大學)、沈言禎(斯坦福大學)、柯國霖(個人貢獻者)

董浩宇:中國科學院大學在讀博士(預計 2025 年底畢業(yè))。研究方向涵蓋表格與半結構化數(shù)據(jù)理解與推理、LLM 后訓練與強化學習、數(shù)據(jù)集與評測基準等。曾提出 SpreadsheetLLM 并獲得 Hugging Face Paper of the Day、聯(lián)合發(fā)起并持續(xù)共同組織 NeurIPS 2022–2024 表格表征學習(TRL)系列研討會,推動表格智能社區(qū)發(fā)展。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-15 15:45:42

自然語言語言模型

2023-03-13 14:41:22

機器學習算法

2025-02-06 11:25:50

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2024-06-19 12:50:39

2023-07-09 15:09:18

機器學習能力

2023-03-31 13:37:34

研究

2023-11-24 17:01:30

模型推理

2025-02-06 10:21:51

2024-09-12 08:00:00

2022-04-29 15:51:16

模型自然語言人工智能

2024-03-14 08:11:45

模型RoPELlama

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2024-06-25 09:35:04

模型訓練

2024-02-29 12:23:54

AI數(shù)據(jù)

2024-07-17 16:59:51

AI訓練

2021-10-25 09:06:29

模型人工智能計算

2025-03-18 08:14:05

2023-11-28 09:00:00

機器學習少樣本學習SetFit

2025-01-27 00:57:43

點贊
收藏

51CTO技術棧公眾號