今天分享一篇來自同濟(jì)大學(xué)與微軟亞洲研究院等機(jī)構(gòu)的文章,題為《TRADEINMINUTES!RATIONALITYDRIVENAGENTICSYSTEMFORQUANTITATIVEFINANCIALTRADING》(分鐘級(jí)交易!理性驅(qū)動(dòng)的量化金融交易智能體系統(tǒng))。這篇文章開創(chuàng)性地提出了一個(gè)名為TiMi(TradeinMinutes)的多智能體(MultiAgent)量化交易系統(tǒng)。其核心思想是將復(fù)雜的策略制定與優(yōu)化過程與對(duì)時(shí)間極其敏感的交易執(zhí)行過程進(jìn)行“解耦”。系統(tǒng)在離線環(huán)境下,利用大語言模型(LLM)...
2天前 586瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine,今天繼續(xù)來分享OpenAI姚順雨的一篇文章,這篇文章探討了Agent實(shí)際落地時(shí)該如何評(píng)測(cè),他在thesecondhalf里面也提了這篇文章,是Agent真正落地到客服等領(lǐng)域必須要進(jìn)行的一些評(píng)測(cè)工作,推薦給大家~論文名字是Title:Tbench:ABenchmarkforToolAgentUserInteractioninRealWorldDomains(Tbench:一個(gè)用于真實(shí)世界領(lǐng)域中工具智能體用戶交互的基準(zhǔn)測(cè)試)?,F(xiàn)有基準(zhǔn)大多不測(cè)試智能體與人類用戶的動(dòng)態(tài)交互能力,也...
2025-10-20 07:55:42 583瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天繼續(xù)來看下經(jīng)典的codebenchmark之SWEBENCH的細(xì)節(jié),其由普林斯頓大學(xué)和芝加哥大學(xué)聯(lián)合發(fā)表于ICLR2024,Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench:語言模型能解決真實(shí)的GitHub問題嗎?)。這篇文章旨在解決當(dāng)前語言模型(LMs)在代碼生成領(lǐng)域評(píng)估基準(zhǔn)過于簡單、無法反映真實(shí)世界軟件工程復(fù)雜性的問題。為此,作者們提出了一個(gè)全新的、極具挑戰(zhàn)性的評(píng)估框架——SWEbench。該框架包含從12個(gè)流行的...
2025-09-24 07:02:26 3904瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享來自中關(guān)村實(shí)驗(yàn)室和清華大學(xué)的一篇觀點(diǎn)文章:AIAgentCommunicationfromInternetArchitecturePerspective:ChallengesandOpportunities。各類AI智能體快速涌現(xiàn),但它們的通信方式卻日益碎片化。這不僅造成了創(chuàng)新資源的冗余,也阻礙了跨系統(tǒng)間的協(xié)作。為此,本文首次從互聯(lián)網(wǎng)架構(gòu)的視角,對(duì)AI智能體通信進(jìn)行了系統(tǒng)性分析。文章借鑒互聯(lián)網(wǎng)數(shù)十年演進(jìn)的成功經(jīng)驗(yàn),提煉出評(píng)估智能體生態(tài)系統(tǒng)的核心要素——可擴(kuò)展性、安全性、...
2025-09-24 07:01:35 1535瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine。今天再來看看GAIABenchmark的細(xì)節(jié),來看看GAIA如何成為Agent領(lǐng)域最經(jīng)典的BenchMark之一。它由MetaFAIR、HuggingFace、AutoGPT等機(jī)構(gòu)聯(lián)合發(fā)布。Title:GAIA:ABenchmarkforGeneralAlAssistants(GAIA:一個(gè)面向通用人工智能助手的基準(zhǔn)測(cè)試)。GAIA旨在評(píng)估通用AI助手的能力。與當(dāng)前主流AI評(píng)測(cè)基MMLU等追求“對(duì)人類也困難”的任務(wù)不同,GAIA的理念是提出一系列對(duì)普通人來說概念上簡單,但對(duì)當(dāng)今最先進(jìn)的AI來說...
2025-09-24 07:01:19 2027瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自O(shè)penAI的文章,Title:PaperBench:EvaluatingAI'sAbilitytoReplicateAIResearch(PaperBench:評(píng)估AI復(fù)現(xiàn)AI研究的能力)。這篇文章提出了一個(gè)名為PaperBench的全新基準(zhǔn)測(cè)試,旨在評(píng)估AIAgents(AIagents)從零開始復(fù)現(xiàn)頂尖AI研究論文的能力。這項(xiàng)任務(wù)極具挑戰(zhàn)性,要求AIAgents理解論文、從頭編寫代碼、并成功運(yùn)行實(shí)驗(yàn)以復(fù)現(xiàn)結(jié)果。該方法的核心貢獻(xiàn)是:1)數(shù)據(jù)集:精選了20篇ICML2024的Spotlight和Oral論文作為復(fù)現(xiàn)...
2025-08-29 06:52:19 1212瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自字節(jié)跳動(dòng)和復(fù)旦大學(xué)的研究,標(biāo)題為《通過自動(dòng)化構(gòu)建環(huán)境的反饋驅(qū)動(dòng)方法提升大型語言模型的工具使用能力》(FeedbackDrivenToolUseImprovementsinLargeLanguageModelsviaAutomatedBuildEnvironments)。這篇文章提出了一種創(chuàng)新方法,旨在解決大型語言模型(LLMs)在工具使用方面所面臨的挑戰(zhàn),特別是缺乏高效的強(qiáng)化學(xué)習(xí)(RL)框架以及難以構(gòu)建穩(wěn)定訓(xùn)練環(huán)境和設(shè)計(jì)可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制的問題。該研究通過構(gòu)建自動(dòng)化環(huán)境和...
2025-08-15 07:49:09 1985瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇ICLR25的一篇文章,標(biāo)題為:AUTOMATEDDESIGNOFAGENTICSYSTEMS(自動(dòng)化Agent設(shè)計(jì)系統(tǒng))。手寫workflow太累啦,這篇文章探討了如何自動(dòng)化設(shè)計(jì)強(qiáng)大的Agent系統(tǒng)(ADAS系統(tǒng)),其通過一種元智能體(metaagent)來自動(dòng)編寫和迭代優(yōu)化Agent,讓他自動(dòng)化去發(fā)明新穎的構(gòu)建模塊和組合方式。同時(shí)通過一個(gè)名為元智能體搜索(MetaAgentSearch)迭代地編程新穎智能體,并根據(jù)其性能進(jìn)行評(píng)估和優(yōu)化。該方法特點(diǎn)總結(jié)如下:1.自動(dòng)化A...
2025-08-01 06:52:00 2001瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自耶魯大學(xué)、OPPO、UWMadison、UNC、斯坦福、字節(jié)跳動(dòng)、微軟研究院、谷歌DeepMind等眾多頂尖機(jī)構(gòu)合作的論文,題目為AGENTKB:LeveragingCrossDomainExperienceforAgenticProblemSolving(AGENTKB:利用跨域經(jīng)驗(yàn)解決智能體問題)。這篇文章直面當(dāng)前語言Agent的核心痛點(diǎn):即難以在不同任務(wù)和領(lǐng)域之間有效地復(fù)用和遷移經(jīng)驗(yàn),導(dǎo)致在處理復(fù)雜問題時(shí)效率低下、錯(cuò)誤頻發(fā)。該框架通過一個(gè)創(chuàng)新的“推理檢索精煉”(ReasonRe...
2025-08-01 06:41:15 2272瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自斯坦福大學(xué)和GoogleDeepMind的文章,標(biāo)題為:《SyntheticDataGeneration&MultiStepRLforReasoning&ToolUse》(利用合成數(shù)據(jù)生成和多階段強(qiáng)化學(xué)習(xí)進(jìn)行推理和工具使用)。本文提出了一種名為SWiRL(StepWiseReinforcementLearning)的方法,旨在優(yōu)化LLMs在復(fù)雜多步推理和工具使用任務(wù)中的表現(xiàn)。該方法分為兩個(gè)主要階段:1.合成數(shù)據(jù)生成:通過迭代式生成多階段(Multistep)的推理和工具使用數(shù)據(jù),并從中學(xué)習(xí)。2.多...
2025-07-11 06:44:02 2569瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
這篇文章旨在探討數(shù)學(xué)推理能力的提升是否能泛化到其他領(lǐng)域?研究發(fā)現(xiàn),盡管許多LLM在數(shù)學(xué)基準(zhǔn)測(cè)試上取得了顯著進(jìn)步,但這些提升在很大程度上未能有效遷移到其他領(lǐng)域。通過對(duì)20多個(gè)開源推理調(diào)優(yōu)模型進(jìn)行評(píng)估,并對(duì)Qwen314B模型進(jìn)行控制實(shí)驗(yàn),研究發(fā)現(xiàn),基于強(qiáng)化學(xué)習(xí)(RL)調(diào)優(yōu)的模型展現(xiàn)出更好的跨領(lǐng)域泛化能力,而基于監(jiān)督微調(diào)(SFT)的模型則常常導(dǎo)致通用能力的遺忘。通過對(duì)潛在空間表示和token空間分布漂移的分析,揭示了SFT...
2025-07-11 06:36:03 1384瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自NVIDIA的研究論文,標(biāo)題為《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:長時(shí)間強(qiáng)化學(xué)習(xí)拓展大型語言模型的推理邊界)。這篇文章探討了強(qiáng)化學(xué)習(xí)(RL)是否真正能拓展LLM推理上限?還是僅僅優(yōu)化了其基礎(chǔ)模型中已有的高獎(jiǎng)勵(lì)輸出的采樣效率,以及持續(xù)擴(kuò)展RL計(jì)算是否能可靠地提高推理性能。作者通過引入ProRL(ProlongedReinforcementLearning)訓(xùn)練方法,證...
2025-06-26 01:02:03 2672瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇上海人工智能實(shí)驗(yàn)室的文章,標(biāo)題為DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通過思考、實(shí)踐和反饋邁向閉環(huán)自動(dòng)化研究)。這篇文章介紹了一個(gè)名為DOLPHIN的閉環(huán)、LLM驅(qū)動(dòng)的框架,旨在提升科學(xué)研究的自動(dòng)化水平。該框架模擬人類研究過程,通過迭代循環(huán)進(jìn)行思考(想法產(chǎn)生)、實(shí)踐(實(shí)驗(yàn)驗(yàn)證)和反饋(結(jié)果分析)。DOLPHIN的方法主要包括三個(gè)關(guān)鍵階段:1)想法產(chǎn)生:...
2025-06-13 06:42:33 1900瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自HarvardUniversity和KempnerInstitute的文章,標(biāo)題為EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后訓(xùn)練放大預(yù)訓(xùn)練中學(xué)到的行為)。這篇文章旨在系統(tǒng)性地研究強(qiáng)化學(xué)習(xí)(RL)微調(diào)對(duì)語言模型行為的影響,特別是其與預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模的相互作用。該研究通過從頭開始訓(xùn)練模型,并使用完全公開的數(shù)據(jù)集混合物進(jìn)行預(yù)訓(xùn)練和RL微調(diào),揭示了RL微調(diào)如何放大預(yù)訓(xùn)練數(shù)據(jù)中的特定模...
2025-05-30 06:03:16 2046瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
從1920年的小說《R.U.R》到《鋼鐵俠》中的JARVIS,在過去的一個(gè)世紀(jì)里,人們一直夢(mèng)想著構(gòu)建能夠自動(dòng)化日常工作的DigitalAgents(數(shù)字代理)。如今,隨著視覺語言模型(VLMs)的蓬勃發(fā)展,構(gòu)建這樣的Agents成為了可能。11AgentforGUIControl想要構(gòu)建一個(gè)有效的ComputerUseAgents,其必須擁有兩個(gè)能力:(1)Planning能力,即規(guī)劃Computeruse任務(wù)的能力,能將用戶給定的(高階)指令分步劃分為多個(gè)子目標(biāo)(2)Action能力,即根據(jù)...
2025-05-19 01:59:53 2095瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇來自清華的文章,標(biāo)題為:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(強(qiáng)化學(xué)習(xí)真的能激勵(lì)大型語言模型(LLM)產(chǎn)生超越基礎(chǔ)模型本身的推理能力嗎?)。這篇文章研究的問題:可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)真能夠使LLM持續(xù)自我改進(jìn),獲得超越其對(duì)應(yīng)基礎(chǔ)模型的新推理能力嗎?(即強(qiáng)化學(xué)習(xí)能提高base基座模型的天花板嗎?)。研究者通過使用passk指標(biāo)(...
2025-05-06 07:12:18 2488瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇來自清華大學(xué)和上海人工智能實(shí)驗(yàn)室的文章,標(biāo)題為TTRL:TestTimeReinforcementLearning(測(cè)試時(shí)強(qiáng)化學(xué)習(xí))。這篇文章探討了一個(gè)重要且具有挑戰(zhàn)性的問題:如何在沒有顯式標(biāo)簽(groundtruth)的情況下,利用強(qiáng)化學(xué)習(xí)(RL)在測(cè)試階段提升大型語言模型(LLM)在推理任務(wù)上的性能。核心挑戰(zhàn)在于測(cè)試時(shí)無法獲得真實(shí)的獎(jiǎng)勵(lì)信號(hào)。研究者們發(fā)現(xiàn),像多數(shù)投票(majorityvoting)這類在測(cè)試時(shí)擴(kuò)展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 3291瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大家好,我是HxShine今天分享一篇香港科技大學(xué)、DeepSeekAI和上海交通大學(xué)聯(lián)合發(fā)表的文章,標(biāo)題為:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通過代碼輸入輸出預(yù)測(cè)濃縮推理模式)。這篇文章提出了一種名為CODEIO的新方法,旨在通過代碼輸入輸出預(yù)測(cè)來提煉和濃縮代碼中蘊(yùn)含的多種推理模式,從而提升大語言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉(zhuǎn)換為一種輸入輸出預(yù)測(cè)任務(wù),讓模型...
2025-04-21 07:29:26 2776瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
什么是AgentR1AgentR1是由中科大認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室開發(fā)的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練框架,致力于推進(jìn)強(qiáng)化學(xué)習(xí)與智能體技術(shù)的融合發(fā)展。框架采用端到端強(qiáng)化學(xué)習(xí)方法,突破了依賴人工設(shè)計(jì)工作流的傳統(tǒng)智能體開發(fā)瓶頸,讓AI直接從與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略,實(shí)現(xiàn)自主決策與行動(dòng)。開發(fā)者只需定義特定領(lǐng)域的工具和獎(jiǎng)勵(lì)函數(shù),即可將AgentR1擴(kuò)展到各種應(yīng)用場(chǎng)景,無需編寫復(fù)雜的工作流程。背景隨著大型語言模型(LLM)技術(shù)的快速發(fā)展,智...
2025-04-09 06:29:20 3075瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天分享一篇伊利諾伊大學(xué)的文章,標(biāo)題為:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用強(qiáng)化學(xué)習(xí)訓(xùn)練LLM進(jìn)行推理并利用搜索引擎)。這篇文章是關(guān)于如何訓(xùn)練大型語言模型(LLMs)有效地利用搜索引擎來增強(qiáng)其推理和文本生成能力。論文提出了一個(gè)名為SEARCHR1的框架,該框架僅僅通過強(qiáng)化學(xué)習(xí)(RL)讓LLM學(xué)習(xí)如何在逐步推理過程中自主生成搜索查詢并與實(shí)時(shí)檢索交互。該方法特...
2025-03-27 00:09:53 3853瀏覽 0點(diǎn)贊 0回復(fù) 0收藏