偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究

發(fā)布于 2025-4-9 06:32
瀏覽
0收藏

?今日目錄

1、 MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型

2、 DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究

3、 APIGen-MT: 通過模擬代理-人類互動生成高質(zhì)量對話數(shù)據(jù)

4、 更大的語言模型是否意味著更好的推理能力?預訓練推理縮放規(guī)律

5、 何時求解,何時驗證:計算最優(yōu)問題求解與LLM推理的生成驗證

6、 突破傳統(tǒng)數(shù)學批改!這個AI系統(tǒng)能給你的每一步解題過程打分

1、 MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

MedSAM2模型通過在超過45.5萬對3D圖像-掩碼對和7.6萬幀數(shù)據(jù)上微調(diào)Segment Anything Model 2,成功打造了一個可提示式分割基礎(chǔ)模型,在各種器官、病變和成像模式下的表現(xiàn)均優(yōu)于現(xiàn)有模型。

研究團隊還實現(xiàn)了人機協(xié)作流程,促進大規(guī)模數(shù)據(jù)集的創(chuàng)建,完成了迄今最大規(guī)模的用戶研究,包括標注5,000個CT病變、3,984個肝臟MRI病變和251,550幀超聲心動圖視頻幀,證明MedSAM2可以減少超過85%的人工成本。

該模型已集成到廣泛使用的平臺中,提供用戶友好的界面,支持本地和云部署,成為研究和醫(yī)療環(huán)境中支持高效、可擴展和高質(zhì)量分割的實用工具。

論文標題:MedSAM2: Segment Anything in 3D Medical Images and Videos

論文鏈接:https://arxiv.org/abs/2504.03600?

2、 DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

這是一篇結(jié)合搜索引擎和LLM的新論文,完全基于GRPO方法。研究團隊推出了DeepResearcher,這是首個通過在真實世界環(huán)境中端到端訓練LLM研究代理的綜合框架,具有真實網(wǎng)絡(luò)搜索交互。

與假設(shè)所有必要信息都存在于固定語料庫中的RAG方法不同,DeepResearcher訓練代理在嘈雜、非結(jié)構(gòu)化和動態(tài)的開放網(wǎng)絡(luò)中導航。研究實現(xiàn)了專門的多代理架構(gòu),使瀏覽代理能從各種網(wǎng)頁結(jié)構(gòu)中提取相關(guān)信息。

在開放領(lǐng)域研究任務(wù)上的廣泛實驗表明,DeepResearcher比基于提示工程的基線提高了高達28.9個點,比基于RAG的強化學習代理提高了高達7.2個點。    

質(zhì)性分析揭示了端到端強化學習訓練產(chǎn)生的認知行為,包括制定計劃、從多個來源交叉驗證信息、進行自我反思以重定向研究,以及在無法找到明確答案時保持誠實的能力。

論文標題:DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

論文鏈接:https://arxiv.org/abs/2504.03160?

3、 APIGen-MT: 通過模擬代理-人類互動生成高質(zhì)量對話數(shù)據(jù)

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

這篇論文介紹了APIGen-MT,一個兩階段框架,用于生成可驗證且多樣化的多輪代理數(shù)據(jù)。在第一階段,代理流程利用LLM審閱委員會和迭代反饋循環(huán),生成帶有真實行動的詳細任務(wù)藍圖。這些藍圖隨后通過模擬的人類-代理互動轉(zhuǎn)化為完整的交互軌跡。

研究團隊訓練了一系列模型——xLAM-2-fc-r,參數(shù)規(guī)模從1B到70B不等。這些模型在τ-bench和BFCL基準測試中的表現(xiàn)優(yōu)于GPT-4o和Claude 3.5等前沿模型,較小的模型甚至超過了較大的模型,特別是在多輪設(shè)置中,同時在多次試驗中保持更高的一致性。

模型鏈接:https://huggingface.co/Salesforce/xLAM-2?    

網(wǎng)站與數(shù)據(jù)集:https://apigen-mt.github.io?

論文標題:APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

論文鏈接:https://arxiv.org/abs/2504.03601?

4、 更大的語言模型是否意味著更好的推理能力?預訓練推理縮放規(guī)律

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

在設(shè)計用來緊密復制真實世界大規(guī)模知識圖譜結(jié)構(gòu)和分布的合成多跳推理環(huán)境中,研究者觀察到過度參數(shù)化會由于過度記憶而損害推理性能。

研究任務(wù)涉及完成圖中缺失的邊,這需要先進的多跳推理,并模仿真實世界的推理場景。為了評估這一點,研究團隊從頭開始僅使用不完整圖的三元組預訓練語言模型,并評估它們推斷缺失邊的能力。

有趣的是,研究者觀察到過度參數(shù)化會由于過度記憶而損害推理性能。他們研究了影響這種U形損失曲線的不同因素,包括圖結(jié)構(gòu)、模型大小和訓練步驟。為了預測特定知識圖譜的最佳模型大小,團隊找到了一個經(jīng)驗縮放規(guī)律,可以將知識圖譜搜索熵線性映射到最佳模型大小。

論文標題:Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

論文鏈接:https://arxiv.org/abs/2504.03635?

5、 何時求解,何時驗證:計算最優(yōu)問題求解與LLM推理的生成驗證

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

這篇論文分析了在固定計算預算下的最佳策略——是生成多個解決方案(自一致性,SC)還是深入驗證較少的解決方案(生成獎勵模型,GenRM)。

研究發(fā)現(xiàn),SC在較低預算下更具計算效率,而GenRM僅在顯著更高的預算下表現(xiàn)更好(例如,僅需要8倍的計算量就能與SC匹配)。

  • 自一致性(SC)對于許多計算預算來說實際上更優(yōu),需要比GenRM少8倍的計算量。
  • 最優(yōu)GenRM擴展解決方案的速度更快(預算指數(shù)約為0.6-0.75),而驗證的擴展速度較慢(指數(shù)約為0.3-0.4)。
  • 在固定計算量的比較中揭示了GenRM的高成本,這在固定解決方案評估中被忽略了。

論文標題:When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

論文鏈接:https://arxiv.org/abs/2504.01005?

6、 突破傳統(tǒng)數(shù)學批改!這個AI系統(tǒng)能給你的每一步解題過程打分

MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環(huán)境強化學習實現(xiàn)深度研究-AI.x社區(qū)圖片

當前的自動數(shù)學糾錯通常只檢查最終答案,忽略了解題步驟中的推理錯誤。這篇論文引入了StepAMC,使用強化學習(RL)改進LLM推理,實現(xiàn)詳細的、逐步的數(shù)學解決方案檢查。

在PRM-42K數(shù)據(jù)集上,StepAMC實現(xiàn)了更高的F1分數(shù)(81.69%)和準確率(81.81%),優(yōu)于直接偏好優(yōu)化(DPO)等強大基線(79.28%的F1,79.43%的準確率)。

  • 強化學習迫使LLM分析逐步邏輯,使推理能力超越簡單分類。
  • 空間約束策略網(wǎng)絡(luò)(Space-Constrained Policy Network)通過添加特定約束增強訓練穩(wěn)定性,使模型更加專注。
  • 細粒度獎勵網(wǎng)絡(luò)(Fine-grained Reward Network)提供細致、連續(xù)的反饋,使模型能夠更好地從部分正確的步驟中學習。

論文中探索的方法??:

→ 空間約束策略網(wǎng)絡(luò)(SCPN)通過在訓練期間使用領(lǐng)域特定約束縮小動作搜索空間,增強RL穩(wěn)定性。

→ 細粒度獎勵網(wǎng)絡(luò)(FRN)將簡單的二元人類反饋(正確/不正確)轉(zhuǎn)換為連續(xù)獎勵值,為評估每個步驟的正確性提供更細致的指導。    

論文標題:Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning

論文鏈接:?https://arxiv.org/abs/2503.18432

本文轉(zhuǎn)載自???AI帝國???,作者:無影寺

收藏
回復
舉報
回復
相關(guān)推薦