偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

10美元成功復(fù)現(xiàn)DeepSeek頓悟時(shí)刻,3B模型爆發(fā)超強(qiáng)推理!微軟論文反駁涌現(xiàn)

人工智能 新聞
不到10美元,3B模型就能復(fù)刻DeepSeek的頓悟時(shí)刻了?來自荷蘭的開發(fā)者采用輕量級(jí)的RL算法Reinforce-Lite,把復(fù)刻成本降到了史上最低!同時(shí),微軟亞研院的一項(xiàng)工作,也受DeepSeek-R1啟發(fā),讓7B模型涌現(xiàn)出了高級(jí)推理技能,但卻發(fā)現(xiàn)「頓悟時(shí)刻」并不存在!

復(fù)刻DeepSeek的神話,還在繼續(xù)。

之前,UC伯克利的博士只用30美元,就復(fù)刻了DeepSeek中的頓悟時(shí)刻,震驚圈內(nèi)。

這一次,來自荷蘭阿姆斯特丹的研究人員Raz,再次打破紀(jì)錄,把復(fù)刻成本降到了史上最低——

只要10美元,就能復(fù)現(xiàn)DeepSeek頓悟時(shí)刻!

圖片

Raz本人也表示,自己驚訝極了。

即使是一個(gè)非常簡單的強(qiáng)化學(xué)習(xí)設(shè)置,并沒有太多RL算法的復(fù)雜性(比如PPO、TRPO、GRPO等),也能在有限的計(jì)算資源下產(chǎn)生涌現(xiàn)的結(jié)果。

在具體設(shè)計(jì)過程中,他特別考慮強(qiáng)化學(xué)習(xí)中LLM中的應(yīng)用和傳統(tǒng)強(qiáng)化學(xué)習(xí)問題(如機(jī)器人、Atari游戲等)在狀態(tài)空間和動(dòng)作空間的不同。

因此,Raz選擇從非常簡單的RL算法——Reinforce-Lite入手。

圖片

采用輕量級(jí)強(qiáng)化學(xué)習(xí)算法——Reinforce-Lite生成的推理過程之一。我們將一步步看到,端到端的強(qiáng)化學(xué)習(xí)微調(diào)模型如何表現(xiàn)出智能、回溯、自我反思、邏輯推理等跡象

結(jié)果,令人出乎意料的事情發(fā)生了:只用不到10美元的成本,他就在一個(gè)3B模型上復(fù)刻了DeepSeek的頓悟時(shí)刻。

幾乎就像是這個(gè)3B模型本身就具備了做出驚人事情的潛力,我們需要的,只是通過正確的方式賦予它一定的自主性而已。

圖片

接下來,讓我們看一下Raz的博客,感受一下這次超經(jīng)濟(jì)實(shí)惠的AI推理,是怎樣突破的。

復(fù)刻DeepSeek頓悟時(shí)刻,只用不到10美元

我們能否在計(jì)算資源有限(只有48GB RTX6000顯卡和10美元)的情況下,讓一個(gè)3B模型具備回溯、自我反思、邏輯推理等推理能力?

研究人員猜測,通過強(qiáng)化學(xué)習(xí)也許能做到。

強(qiáng)化學(xué)習(xí)是最強(qiáng)大的學(xué)習(xí)算法之一,它一次又一次地為我們帶來令人驚嘆的成果。

DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari實(shí)驗(yàn)、LLM的RLHF對齊,以及最近DeepSeek全面布局的RL技術(shù),無比證明它的強(qiáng)大威力。

然而,由于RL有許多動(dòng)態(tài)部分,一涉及到眾多組件,強(qiáng)化學(xué)習(xí)就變得復(fù)雜了。

在此過程中,強(qiáng)化學(xué)習(xí)需要精心設(shè)計(jì)重要元素,如合適的信用分配機(jī)制、演員-評(píng)論員的適當(dāng)超參數(shù)調(diào)整、強(qiáng)化學(xué)習(xí)算法類型(基于模型/無模型)等,這就導(dǎo)致了強(qiáng)化學(xué)習(xí)在更廣泛的范圍內(nèi)應(yīng)用受限。

如果在LLM環(huán)境中使用強(qiáng)化學(xué)習(xí),可能涉及的模型可以多達(dá)5個(gè):

  1. 策略模型:正在訓(xùn)練的模型
  2. 舊策略模型:用于計(jì)算替代目標(biāo)
  3. 參考模型:用于計(jì)算KL散度(KL-divergence)
  4. 獎(jiǎng)勵(lì)模型:用于學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)
  5. 評(píng)判模型:用于計(jì)算價(jià)值函數(shù)

Reinforce-Lite:一個(gè)比PPO更簡單、更穩(wěn)定且更高效的微調(diào)方案

圖片

3B模型端到端強(qiáng)化學(xué)習(xí)訓(xùn)練的計(jì)算需求

由于涉及眾多組件,不僅帶來了計(jì)算負(fù)擔(dān),還帶來了訓(xùn)練穩(wěn)定性方面的復(fù)雜性和挑戰(zhàn)。

因此,研究人員開始思考:能否從零開始重新構(gòu)想整個(gè)算法,回歸第一性原理?

他們的答案就是——一個(gè)簡單的替代方案,Reinforce-Lite。

這種方法消除了對替代目標(biāo)比率和舊策略模型的需求,通過單一策略神經(jīng)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練過程,同時(shí),還能為模型注入推理能力。

為此,我們需要理解的第一個(gè)問題就是——

使用替代目標(biāo)比率(如PPO/GRPO)是過度優(yōu)化?

OpenAI vs DOTA 5v5:基于大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練

在MuJoCo、Atari、Dota等傳統(tǒng)強(qiáng)化學(xué)習(xí)環(huán)境中,PPO對每個(gè)批次進(jìn)行多次更新是至關(guān)重要的,這是因?yàn)樵谶@些環(huán)境中數(shù)據(jù)收集成本非常高昂,而重復(fù)使用樣本可以提高樣本效率。

然而在LLM中,這種方法既無必要,又會(huì)帶來巨大的計(jì)算開銷。

LLM可以并行生成多樣化的響應(yīng),自然形成豐富的數(shù)據(jù)集,因此就無需重復(fù)更新。

所有響應(yīng)都可以使用相同的策略網(wǎng)絡(luò)生成,一旦在序列生成結(jié)束時(shí)獲得獎(jiǎng)勵(lì),就可以進(jìn)行梯度反向傳播。

此外,在文本生成這樣的高維動(dòng)作空間中,每個(gè)batch多次更新可能導(dǎo)致過擬合,而非有意義的策略改進(jìn)。

相反,如果每個(gè)batch單次更新,再結(jié)合分組歸一化等技術(shù),就可以在顯著降低計(jì)算成本的同時(shí),保持訓(xùn)練穩(wěn)定性。

考慮到LLM訓(xùn)練本身就需要大量資源,在不影響性能的前提下簡化優(yōu)化過程,顯然是更有效的選擇。

從技術(shù)角度來看,這也消除了為計(jì)算替代目標(biāo)比率而保留舊策略模型的需求。

圖片

LLM強(qiáng)化學(xué)習(xí)與經(jīng)典強(qiáng)化學(xué)習(xí)的區(qū)別

總之,在這個(gè)算法中——

  1. 移除KL散度,不需要參考模型 ? ——改用梯度裁剪。雖然不是自適應(yīng)的方法,但能有效完成任務(wù)。
  2. 移除替代目標(biāo),不需要舊策略模型 ?
  3. 使用分組相對獎(jiǎng)勵(lì)進(jìn)行優(yōu)勢計(jì)算(類似DeepSeek的GRPO方式),不需要價(jià)值網(wǎng)絡(luò) ?

這樣,我們就得到了一個(gè)輕量級(jí)的強(qiáng)化學(xué)習(xí)算法。

通過以上簡化,優(yōu)化問題最終就回歸為經(jīng)典的Reinforce算法——

圖片

Reinforce-Lite

在優(yōu)勢計(jì)算方面,研究人員采用分組相對策略優(yōu)化(GRPO)的歸一化技術(shù),將每個(gè)問題的10個(gè)回應(yīng)結(jié)果作為一組,并通過其歸一化方法來降低梯度更新中的方差。

讓我們來看看它在PyTorch中的具體實(shí)現(xiàn)。

def reinforce_lite(batch, policy_model, tokenizer, device, step, save_dir):
    policy_model.train()
    prompts, targets = zip(*batch)
    batch_size = len(prompts)
    evaluated_group = 0


    all_logprobs = []
    all_rewards = []
    all_responses = []
    all_lengths = []


    for group_idx in range(config.GROUP_SIZE):
        formatted_prompts = [format_prompt(p, tokenizer) for p in prompts]
        inputs = tokenizer(
            formatted_prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=config.MAX_SEQ_LENGTH
        ).to(device)


        generate_kwargs = {
            **inputs,
            "max_new_tokens": config.MAX_NEW_TOKENS,
            "do_sample": True,
            "temperature": 0.7,
            "top_p": 0.9,
            "pad_token_id": tokenizer.pad_token_id,
            "return_dict_in_generate": True,
        }


        if group_idx == evaluated_group:
            generated = policy_model.generate(**generate_kwargs)
            generated_ids = generated.sequences
            outputs = policy_model(
                generated_ids,
                attention_mask=(generated_ids != tokenizer.pad_token_id).long()
            )
            prompt_length = inputs.input_ids.shape[1]
            response_length = generated_ids.shape[1] - prompt_length
            if response_length > 0:
                logits = outputs.logits[:, prompt_length-1:-1, :]
                response_tokens = generated_ids[:, prompt_length:]
                log_probs = torch.log_softmax(logits, dim=-1)
                token_log_probs = torch.gather(log_probs, -1, response_tokens.unsqueeze(-1)).squeeze(-1)
                sequence_log_probs = token_log_probs.sum(dim=1)
            else:
                sequence_log_probs = torch.zeros(batch_size, device=device)
        else:
            with torch.no_grad():
                generated = policy_model.generate(**generate_kwargs)
            sequence_log_probs = torch.zeros(batch_size, device=device)


        responses = tokenizer.batch_decode(
            generated.sequences[:, inputs.input_ids.shape[1]:],
            skip_special_tokens=True
        )
        rewards = torch.tensor([get_reward(resp, tgt) for resp, tgt in zip(responses, targets)], device=device)


        all_responses.extend(responses)
        all_rewards.append(rewards)
        all_logprobs.append(sequence_log_probs)
        all_lengths.extend([len(r.split()) for r in responses])


    rewards_tensor = torch.stack(all_rewards)
    logprobs_tensor = torch.stack(all_logprobs)


    evaluated_rewards = rewards_tensor[evaluated_group]
    others_rewards = torch.cat([
        rewards_tensor[:evaluated_group], 
        rewards_tensor[evaluated_group+1:]
    ], dim=0)
    
    baseline = others_rewards.mean(dim=0)
    advantages = (evaluated_rewards - baseline) / (others_rewards.std(dim=0) + 1e-8)
    advantages = torch.clamp(advantages, -2.0, 2.0)


    policy_loss = -(logprobs_tensor[evaluated_group] * advantages.detach()).mean()
    
    return policy_loss, rewards_tensor.mean().item(), policy_loss.item(), 0.0, all_responses[0], all_lengths
  1. 初始化一個(gè)經(jīng)過指令微調(diào)的LLM,并通過合適的提示詞使其在 <think></think> 標(biāo)簽中包含推理步驟。
  2. 為模型輸出定義一個(gè)獎(jiǎng)勵(lì)函數(shù)(例如,在GSM8K基準(zhǔn)中的正確率)。通過正則表達(dá)式從標(biāo)簽中提取數(shù)值,并與數(shù)據(jù)集中的實(shí)際答案進(jìn)行比較。
  3. 通過直接計(jì)算相對于獎(jiǎng)勵(lì)的梯度來優(yōu)化策略,無需使用替代損失函數(shù)。
  4. 采用分組相對歸一化優(yōu)勢計(jì)算值,從而消除對批評(píng)模型的依賴。采用10作為分組大小。
  5. 使用標(biāo)準(zhǔn)的對數(shù)概率梯度技巧對模型進(jìn)行更新

GSM8K數(shù)據(jù)集

為了驗(yàn)證自己的假設(shè),研究人員將使用GSM8K,這是一個(gè)包含小學(xué)數(shù)學(xué)問題及其答案的Grade School Math 8K數(shù)據(jù)集,格式如下:

問題:Natalia在4月份向她的48個(gè)朋友賣出了發(fā)夾,而在5月份她售賣的發(fā)夾數(shù)量是4月份的一半。Natalia在4月和5月總共售賣了多少個(gè)發(fā)夾?

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?

答案:Natalia在5月售賣了48/2 = <<48/2=24>>24個(gè)發(fā)夾。Natalia在4月和5月總共售賣了48+24 = <<48+24=72>>72個(gè)發(fā)夾。#### 72

Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72

雖然答案中就包含了完整的推理步驟,但讓研究人員感興趣的,只有###后的最終答案。

對此,研究人員引導(dǎo)策略模型,以<answer></answer>格式輸出了最終答案,并用它來驗(yàn)證模型計(jì)算的答案是否正確。

這更像是一個(gè)蒙特卡洛問題——在每個(gè)回合結(jié)束時(shí),才能獲得獎(jiǎng)勵(lì)。

def format_prompt(question: str) -> str:
    return f"""<|begin_of_text|><|start_header_id|>user<|end_header_id|>
Solve this math problem: {question}
Show your reasoning first in <think tags>, then put the final answer in \\boxed{{}}.

獎(jiǎng)勵(lì)建模

研究人員把獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)得很簡單易懂,對于策略模型:

  • 答案錯(cuò)誤時(shí),給予負(fù)獎(jiǎng)勵(lì)-1
  • 答案正確時(shí),給予正獎(jiǎng)勵(lì)+1
def get_reward(completion: str, target: str) -> float:
    reward = -1.0
    try:
        completion = completion.strip()
        start_tag = "<answer>"
        end_tag = "</answer>"
        start_idx = completion.rfind(start_tag)
        if start_idx != -1:
            substring_after_start = completion[start_idx + len(start_tag):]
            end_idx = substring_after_start.find(end_tag)
            if end_idx != -1:
                answer = substring_after_start[:end_idx].strip()
                if not answer and end_idx > 0:
                    answer = substring_after_start[:end_idx].strip()
                numbers = ''.join(char for char in answer if char.isdigit() or char == '.')
                if numbers:
                    generated_num = float(numbers)
                    target_num = float(str(target).strip())
                    if abs(generated_num - target_num) < 1e-6:
                        reward = 1.0
    except Exception as e:


        pass
    return reward

訓(xùn)練設(shè)置

接下來,研究人員使用Reinforce-Lite算法,在RTX A6000顯卡上訓(xùn)練了3B模型,訓(xùn)練時(shí)間為12小時(shí),并采用大小為10的分組。

在訓(xùn)練初期,可以觀察到:模型不斷嘗試增加輸出序列/輸出token的長度,但會(huì)經(jīng)常遇到內(nèi)存溢出(OOM)問題,這就限制了模型嘗試更長的推理過程,并從中有效學(xué)習(xí)。

獎(jiǎng)勵(lì)圖表展示的是分組響應(yīng)的平均得分。理想情況下,平均值越接近1,表示模型在大多數(shù)采樣響應(yīng)中的準(zhǔn)確率越高。

在這次實(shí)驗(yàn)中,研究人員只訓(xùn)練了數(shù)百次迭代,可以觀察到當(dāng)策略模型嘗試不同策略時(shí),得分會(huì)出現(xiàn)一定波動(dòng)。

這種波動(dòng)可以通過熵正則化來平衡探索與利用之間的關(guān)系,這是他們未來探索的一個(gè)方向。

圖片

圖片

對比測試Reinforce-Lite和Instruct模型

研究在GSM8K數(shù)據(jù)集上評(píng)估了Reinforce-Lite,發(fā)現(xiàn)在有限訓(xùn)練時(shí)間內(nèi),Reinforce-Lite相比指令模型在得分上實(shí)現(xiàn)了小幅提升。

具體來說,Meta Llama 3.2模型提升了2.0%(從70.5提升至72.5),而在FP16格式下運(yùn)行的Phi 3.5 Instruct則提升了0.6%(從83.4提升至84.0)。

圖片

推理軌跡分析

觀察一些推理軌跡后可以發(fā)現(xiàn),經(jīng)過Reinforce-Lite微調(diào)的模型展現(xiàn)出了多種推理能力,包括:

  • 邏輯思維
  • 搜索策略
  • 結(jié)果驗(yàn)證
  • 通過表格進(jìn)行中間計(jì)算
  • 試錯(cuò)方法等

注意!這些推理軌跡,在常規(guī)的指令模型中均未觀察到。

比如在下圖中,模型展現(xiàn)出了基本的數(shù)學(xué)推理能力。它能夠通過代數(shù)表達(dá)式設(shè)立問題,并通過解方程來求解。

過程中,它能識(shí)別出不合理的解,在原方案不可行時(shí)選擇調(diào)整解決方案,最終還能通過比較不同選擇的成本,來做出最優(yōu)決策。

圖片

在這道題中,模型表現(xiàn)出的處理包含條件推理和糾錯(cuò)的能力,也令人印象深刻。

它首先設(shè)定了問題背景,計(jì)算派對開始時(shí)的總?cè)藬?shù)。然后根據(jù)已知條件(總共40人,1/4人離開),計(jì)算出有10人離開派對。

然而,在計(jì)算離開的女性人數(shù)時(shí),模型居然得出了一個(gè)負(fù)數(shù),它意識(shí)到了自己的推理中,一定出現(xiàn)了邏輯錯(cuò)誤。

為此,它重新審視了情況,修正了自己的推理,正確計(jì)算出派對上剩下了8名女性,從而得出正確答案。

圖片

這道題中,模型設(shè)定初始繃帶數(shù)量為x,根據(jù)給定條件將繃帶數(shù)量的變化轉(zhuǎn)換為代數(shù)方程,但解出的方程結(jié)果是x=-6。

它意識(shí)到自己的錯(cuò)誤后,回顧了之前的步驟,識(shí)別出自己在計(jì)算第三天的繃帶使用量時(shí)犯了錯(cuò)。修正方程后,它重新計(jì)算出了正確結(jié)果。

整個(gè)過程中,它展現(xiàn)出了較強(qiáng)的自我糾錯(cuò)和邏輯推理能力,能在復(fù)雜計(jì)算過程中發(fā)現(xiàn)并修正問題。

圖片

關(guān)鍵要點(diǎn)總結(jié)

總結(jié)來說,這項(xiàng)研究主要有以下發(fā)現(xiàn)。

  1. 結(jié)構(gòu)化推理能力提升
    從生成的序列中可以觀察到,經(jīng)過RL微調(diào)的模型在評(píng)估得分上實(shí)現(xiàn)了小幅提升。
  2. 簡化算法復(fù)雜度,無需PPO的復(fù)雜性
    研究表明,對LLM進(jìn)行微調(diào)只需要一個(gè)策略網(wǎng)絡(luò)即可,無需采用PPO的復(fù)雜機(jī)制。
  3. 優(yōu)化計(jì)算效率
    Reinforce-Lite作為一個(gè)計(jì)算友好型算法,支持端到端的RL訓(xùn)練,同時(shí)顯著降低了訓(xùn)練復(fù)雜度。
  4. 增強(qiáng)模型自主性
    算法成功地賦予了LLM自主能力,讓模型會(huì)通過嘗試不同策略來獲取獎(jiǎng)勵(lì)。
  5. 更長的推理回合,需要更多內(nèi)存
    隨著訓(xùn)練的進(jìn)行,可以發(fā)現(xiàn)模型傾向于進(jìn)行更長的推理過程,但在使用48GB GPU訓(xùn)練3GB模型(FP16)時(shí),如果超過1024個(gè)token,就會(huì)頻繁出現(xiàn)內(nèi)存溢出問題。
  6. 在沒有KL散度的情況下確保穩(wěn)定性
    研究人員發(fā)現(xiàn),使用簡單的梯度裁剪就能有效替代KL散度計(jì)算,這是一種高效的替代方案,用于防止策略偏離。在整個(gè)訓(xùn)練過程中,模型策略保持穩(wěn)定,未出現(xiàn)劇烈波動(dòng)。

DeepSeek-R1啟發(fā),7B模型實(shí)現(xiàn)高級(jí)推理技能

巧的是,最近來自微軟亞洲研究院的一項(xiàng)工作,也證明了RL的巨大潛力——通過有效且穩(wěn)定的RL訓(xùn)練后,一個(gè)7B模型,居然就發(fā)展出了反思、驗(yàn)證和總結(jié)的高級(jí)推理技能!

而這些技能,在邏輯語料庫中是完全缺失的。

受DeepSeek-R1成功的啟發(fā),研究團(tuán)隊(duì)探索了基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL)在大規(guī)模推理模型中的潛力。

圖片

論文地址:https://arxiv.org/abs/2502.14768

為了分析推理機(jī)制,他們選擇了具有可控復(fù)雜度和直接答案驗(yàn)證方式的「合成邏輯謎題」作為訓(xùn)練數(shù)據(jù)。

在此過程中,團(tuán)隊(duì)取得了一些關(guān)鍵性的技術(shù)突破,并促成了有效且穩(wěn)定的RL訓(xùn)練:

  • 一個(gè)著重強(qiáng)調(diào)思考和回答過程的system prompt
  • 一個(gè)用于懲罰取巧輸出的嚴(yán)格格式獎(jiǎng)勵(lì)函數(shù)
  • 一個(gè)能實(shí)現(xiàn)穩(wěn)定收斂的簡單訓(xùn)練方案

其中,訓(xùn)練框架采用REINFORCE++算法和來自DeepSeek-R1的獎(jiǎng)勵(lì)設(shè)計(jì)進(jìn)行后訓(xùn)練。

隨著RL訓(xùn)練的進(jìn)行,可以觀察到模型自然地分配更多的訓(xùn)練步驟用于推理。這種計(jì)算擴(kuò)展從生成數(shù)百個(gè)token擴(kuò)展到數(shù)千個(gè)token,使其能夠更深入地探索和完善其思維過程。

結(jié)果顯示,只有70億參數(shù)的Qwen2.5-7B,在經(jīng)過5K個(gè)邏輯問題的訓(xùn)練后,就發(fā)展出了一些在邏輯語料庫中原本不存在的高級(jí)推理技能——如反思、驗(yàn)證和總結(jié)能力。

研究中,考驗(yàn)?zāi)P偷倪@道邏輯題是這樣的。

圖片

問題:一個(gè)非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話,騙子總是說謊。你遇到兩位島民:Zoey和Oliver。Zoey說:「Oliver不是騎士。」Oliver說:「Oliver是騎士且Zoey是騙子。」請問,誰是騎士,誰是騙子?

正確答案:(1)Zoey是騙子;(2)Oliver是騎士。

這個(gè)「騎士與騙子」謎題,因其合成設(shè)計(jì)和邏輯精確性而非常適合進(jìn)一步分析。

首先,謎題對于模型來說都是未見過大數(shù)據(jù),非常適合用來測試泛化能力。

其次,通過改變字符數(shù)量(2到8個(gè))和邏輯運(yùn)算的復(fù)雜性(1到4種布爾運(yùn)算符組合),可以調(diào)節(jié)難度。

而且,每個(gè)謎題都有一個(gè)單一、明確的正確答案,正確性由生成算法保證。解答需要嚴(yán)格的演繹推理,因此減少了獎(jiǎng)勵(lì)作弊的風(fēng)險(xiǎn)。

總之,每個(gè)謎題都遵循正式規(guī)則構(gòu)建,能確保每個(gè)問題都有一個(gè)獨(dú)特的解決方案,并可以確定性地驗(yàn)證。這消除了自然語言任務(wù)中常見的模糊性,使我們能夠清晰地區(qū)分真正的推理能力和表面上的記憶。

在獎(jiǎng)勵(lì)建模中,研究在模型輸出中不斷檢測作弊行為,并不斷改進(jìn)獎(jiǎng)勵(lì)設(shè)計(jì)。

最終,他們設(shè)計(jì)出了一種幾乎無法作弊的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),僅包含兩種獎(jiǎng)勵(lì)類型:格式獎(jiǎng)勵(lì)和答案獎(jiǎng)勵(lì)。

圖片

以下就是不同的推理模型和通用模型在不同難度的K&K邏輯謎題上的表現(xiàn)。

圖片

在RL訓(xùn)練后,可以在模型中觀察到以下涌現(xiàn)的行為。

1. 會(huì)出現(xiàn)猶豫和自我驗(yàn)證

在思考環(huán)節(jié),模型會(huì)不時(shí)使用「我不是完全確定,讓我們重新檢查這一步」這類反思性表達(dá)。

這種自我審視的行為特征在預(yù)訓(xùn)練階段是完全不存在的,而是通過獎(jiǎng)勵(lì)正確答案、懲罰錯(cuò)誤答案的強(qiáng)化學(xué)習(xí)機(jī)制逐步培養(yǎng)形成的。

2. 多輪徑探索和回溯

經(jīng)過RL訓(xùn)練后,模型會(huì)主動(dòng)提出多個(gè)解決方案(「讓我們測試兩種可能性」),并通過回溯來檢查解決方案的一致性。

圖片

3. 應(yīng)用公式

盡管訓(xùn)練數(shù)據(jù)集中并未包含,但模型不僅能夠通過系統(tǒng)性試錯(cuò)方法解決謎題,還自主整合了形式邏輯推理能力(比如運(yùn)用「如果P,則Q」的邏輯蘊(yùn)含公式),這種推理模式與人類的問題解決方式高度相似。

圖片

4.忽然開始說中文

模型在分析問題陳述時(shí)會(huì)臨時(shí)插入中文表達(dá),隨后又能自然地轉(zhuǎn)換為英語來提供解決方案。

這一現(xiàn)象表明,模型正在使用語言混合機(jī)制作為一種潛在的備選處理策略,或是形成了某種特殊的內(nèi)部表征模式。

圖片

在具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試AIME和AMC上,模型展現(xiàn)出了卓越的泛化能力——成績分別提高了125%和38%。

這種跨領(lǐng)域泛化能力表明,RL訓(xùn)練的推理啟發(fā)式方法發(fā)展出了抽象的問題解決模式,而不是依賴于特定領(lǐng)域的模式匹配。

圖片

所以,這項(xiàng)研究的訓(xùn)練期間,也出現(xiàn)「頓悟時(shí)刻」了嗎?

換句話說就是,在強(qiáng)化學(xué)習(xí)過程中,模型的推理能力是否會(huì)發(fā)生顯著的飛躍,出現(xiàn)多步驗(yàn)證或反思,而且這些行為不是在訓(xùn)練語料中明確植入的,而是模型與RL環(huán)境的互動(dòng)所自然產(chǎn)生的?

研究人員發(fā)現(xiàn),模型并沒有出現(xiàn)「等一下,等一下」這樣特定的語言表述,但圖4顯示出,它在第10步時(shí)表現(xiàn)出了一些復(fù)雜的推理行為(例如自我反思、探索、驗(yàn)證、總結(jié))。

由此,研究人員的結(jié)論是,RL學(xué)習(xí)過程可能沒有突如其來的「頓悟時(shí)刻」——復(fù)雜的推理行為并不是在某個(gè)特定的訓(xùn)練步驟中突然出現(xiàn)的。

圖片

1. 反思性詞匯(如「檢查」和「驗(yàn)證」)的頻率緩慢增加(a)-(c);2. 會(huì)話性短語(例如「讓我們」)和謹(jǐn)慎詞匯(例如「還」)變得更加頻繁(d)-(e);3. 中文詞匯開始出現(xiàn)在英文回復(fù)中(f)。所有這些詞匯的頻率都在穩(wěn)步發(fā)展,沒有突然的跳躍,表明可能不存在明顯的「頓悟時(shí)刻」

除了上述技術(shù)貢獻(xiàn)外,研究還有幾個(gè)有趣的發(fā)現(xiàn):

  • 更長的回答并不能保證更好的推理。長度本身不是評(píng)估訓(xùn)練時(shí)間的有效指標(biāo)。最有效的推理來自最短路徑。
  • 語言混合會(huì)阻礙推理。這一觀察強(qiáng)調(diào)了在獎(jiǎng)勵(lì)建模中需要語言一致性懲罰。
  • 增加「思考」token確實(shí)有幫助。RL訓(xùn)練自然地提高了與反思相關(guān)詞匯的頻率,表明某些token頻率與性能之間存在相關(guān)性。
  • 監(jiān)督微調(diào)(SFT)依賴記憶;RL實(shí)現(xiàn)泛化。SFT嚴(yán)重依賴記憶,往往導(dǎo)致表面的捷徑學(xué)習(xí),而RL則在最小依賴數(shù)據(jù)集結(jié)構(gòu)的情況下自我演化。
  • 冷啟動(dòng)是一個(gè)優(yōu)勢,但非必需。無論是從基礎(chǔ)模型還是指令模型開始,訓(xùn)練動(dòng)態(tài)都保持驚人的相似性,盡管后者表現(xiàn)略好。
  • 課程學(xué)習(xí)仍然重要。在固定的數(shù)據(jù)篩選比例下,精心設(shè)計(jì)的課程學(xué)習(xí)方法總是優(yōu)于隨機(jī)打亂。
責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-06 09:09:37

2025-02-18 10:54:04

2025-03-06 01:00:00

2025-10-17 09:08:05

2025-06-11 14:39:50

AILLMMistral

2025-06-25 08:54:03

模型訓(xùn)練AI

2025-07-09 09:23:19

2025-01-26 13:03:35

2024-10-17 18:52:41

2012-11-23 09:50:28

32nm龍芯龍芯3B 1500

2025-09-29 14:02:02

DeepMind模型AI

2025-06-09 15:25:03

模型AI訓(xùn)練

2024-03-27 09:09:57

模型AI開源

2025-05-16 08:58:09

2024-12-17 12:30:00

2025-02-07 14:08:45

2025-09-19 11:09:40

2024-06-04 14:09:00

2024-06-13 09:12:48

2024-01-17 12:08:32

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)