偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

arnoldzhw

LV.4

這個用戶很懶，還沒有個人簡介

聲望 448

關(guān)注 0

粉絲 1

社區(qū)頭條作者

私信

關(guān)注

主帖 52

回帖

Trade in Minutes! 揭秘首個將策略與執(zhí)行完全分離的量化交易Agent

社區(qū)頭條

今天分享一篇來自同濟大學(xué)與微軟亞洲研究院等機構(gòu)的文章，題為《TRADEINMINUTES!RATIONALITYDRIVENAGENTICSYSTEMFORQUANTITATIVEFINANCIALTRADING》（分鐘級交易！理性驅(qū)動的量化金融交易智能體系統(tǒng)）。這篇文章開創(chuàng)性地提出了一個名為TiMi(TradeinMinutes)的多智能體（MultiAgent）量化交易系統(tǒng)。其核心思想是將復(fù)雜的策略制定與優(yōu)化過程與對時間極其敏感的交易執(zhí)行過程進行“解耦”。系統(tǒng)在離線環(huán)境下，利用大語言模型（LLM）...

2天前 590瀏覽 0點贊 0回復(fù) 0收藏

AI Agent落地必讀：深度解讀OpenAI 姚順雨的T-bench，如何評測智能體的“真功夫”

社區(qū)頭條

大家好，我是HxShine，今天繼續(xù)來分享OpenAI姚順雨的一篇文章，這篇文章探討了Agent實際落地時該如何評測，他在thesecondhalf里面也提了這篇文章，是Agent真正落地到客服等領(lǐng)域必須要進行的一些評測工作，推薦給大家～論文名字是Title:Tbench:ABenchmarkforToolAgentUserInteractioninRealWorldDomains（Tbench：一個用于真實世界領(lǐng)域中工具智能體用戶交互的基準測試）?，F(xiàn)有基準大多不測試智能體與人類用戶的動態(tài)交互能力，也...

2025-10-20 07:55:42 583瀏覽 0點贊 0回復(fù) 0收藏

再看SWE-Bench：論一個好的benchmark是如何推動2025 Agentic編程范式的發(fā)展

社區(qū)頭條

今天繼續(xù)來看下經(jīng)典的codebenchmark之SWEBENCH的細節(jié),其由普林斯頓大學(xué)和芝加哥大學(xué)聯(lián)合發(fā)表于ICLR2024，Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench：語言模型能解決真實的GitHub問題嗎？)。這篇文章旨在解決當(dāng)前語言模型（LMs）在代碼生成領(lǐng)域評估基準過于簡單、無法反映真實世界軟件工程復(fù)雜性的問題。為此，作者們提出了一個全新的、極具挑戰(zhàn)性的評估框架——SWEbench。該框架包含從12個流行的...

2025-09-24 07:02:26 3904瀏覽 0點贊 0回復(fù) 0收藏

從互聯(lián)網(wǎng)架構(gòu)視角，重新審視AI智能體通信的挑戰(zhàn)與機遇

今天分享來自中關(guān)村實驗室和清華大學(xué)的一篇觀點文章：AIAgentCommunicationfromInternetArchitecturePerspective:ChallengesandOpportunities。各類AI智能體快速涌現(xiàn)，但它們的通信方式卻日益碎片化。這不僅造成了創(chuàng)新資源的冗余，也阻礙了跨系統(tǒng)間的協(xié)作。為此，本文首次從互聯(lián)網(wǎng)架構(gòu)的視角，對AI智能體通信進行了系統(tǒng)性分析。文章借鑒互聯(lián)網(wǎng)數(shù)十年演進的成功經(jīng)驗，提煉出評估智能體生態(tài)系統(tǒng)的核心要素——可擴展性、安全性、...

2025-09-24 07:01:35 1535瀏覽 0點贊 0回復(fù) 0收藏

再看GAIA Benchamrk：他是如何推動Agent系統(tǒng)的發(fā)展的？

大家好，我是HxShine。今天再來看看GAIABenchmark的細節(jié)，來看看GAIA如何成為Agent領(lǐng)域最經(jīng)典的BenchMark之一。它由MetaFAIR、HuggingFace、AutoGPT等機構(gòu)聯(lián)合發(fā)布。Title:GAIA:ABenchmarkforGeneralAlAssistants（GAIA：一個面向通用人工智能助手的基準測試）。GAIA旨在評估通用AI助手的能力。與當(dāng)前主流AI評測基MMLU等追求“對人類也困難”的任務(wù)不同，GAIA的理念是提出一系列對普通人來說概念上簡單，但對當(dāng)今最先進的AI來說...

2025-09-24 07:01:19 2030瀏覽 0點贊 0回復(fù) 0收藏

再看OpenAI PaperBench：Agent離獨立復(fù)現(xiàn)AI論文還有多遠？

今天分享一篇來自O(shè)penAI的文章，Title:PaperBench:EvaluatingAI'sAbilitytoReplicateAIResearch(PaperBench：評估AI復(fù)現(xiàn)AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試，旨在評估AIAgents（AIagents）從零開始復(fù)現(xiàn)頂尖AI研究論文的能力。這項任務(wù)極具挑戰(zhàn)性，要求AIAgents理解論文、從頭編寫代碼、并成功運行實驗以復(fù)現(xiàn)結(jié)果。該方法的核心貢獻是：1）數(shù)據(jù)集：精選了20篇ICML2024的Spotlight和Oral論文作為復(fù)現(xiàn)...

2025-08-29 06:52:19 1212瀏覽 0點贊 0回復(fù) 0收藏

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%

今天分享一篇來自字節(jié)跳動和復(fù)旦大學(xué)的研究，標題為《通過自動化構(gòu)建環(huán)境的反饋驅(qū)動方法提升大型語言模型的工具使用能力》(FeedbackDrivenToolUseImprovementsinLargeLanguageModelsviaAutomatedBuildEnvironments)。這篇文章提出了一種創(chuàng)新方法，旨在解決大型語言模型（LLMs）在工具使用方面所面臨的挑戰(zhàn)，特別是缺乏高效的強化學(xué)習(xí)（RL）框架以及難以構(gòu)建穩(wěn)定訓(xùn)練環(huán)境和設(shè)計可驗證獎勵機制的問題。該研究通過構(gòu)建自動化環(huán)境和...

2025-08-15 07:49:09 1985瀏覽 0點贊 0回復(fù) 0收藏

ICLR25 | 告別手搓workflow！AI 能自己設(shè)計更強智能體嗎?

精華

今天分享一篇ICLR25的一篇文章，標題為：AUTOMATEDDESIGNOFAGENTICSYSTEMS（自動化Agent設(shè)計系統(tǒng)）。手寫workflow太累啦，這篇文章探討了如何自動化設(shè)計強大的Agent系統(tǒng)（ADAS系統(tǒng)），其通過一種元智能體（metaagent）來自動編寫和迭代優(yōu)化Agent，讓他自動化去發(fā)明新穎的構(gòu)建模塊和組合方式。同時通過一個名為元智能體搜索（MetaAgentSearch）迭代地編程新穎智能體，并根據(jù)其性能進行評估和優(yōu)化。該方法特點總結(jié)如下：1.自動化A...

2025-08-01 06:52:00 2001瀏覽 0點贊 0回復(fù) 0收藏

AgentKB｜卷不動Agent了？給你的Agent加個“經(jīng)驗包”，提升復(fù)雜任務(wù)Agent效果

今天分享一篇來自耶魯大學(xué)、OPPO、UWMadison、UNC、斯坦福、字節(jié)跳動、微軟研究院、谷歌DeepMind等眾多頂尖機構(gòu)合作的論文，題目為AGENTKB:LeveragingCrossDomainExperienceforAgenticProblemSolving（AGENTKB：利用跨域經(jīng)驗解決智能體問題）。這篇文章直面當(dāng)前語言Agent的核心痛點：即難以在不同任務(wù)和領(lǐng)域之間有效地復(fù)用和遷移經(jīng)驗，導(dǎo)致在處理復(fù)雜問題時效率低下、錯誤頻發(fā)。該框架通過一個創(chuàng)新的“推理檢索精煉”（ReasonRe...

2025-08-01 06:41:15 2272瀏覽 0點贊 0回復(fù) 0收藏

DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！

今天分享一篇來自斯坦福大學(xué)和GoogleDeepMind的文章，標題為：《SyntheticDataGeneration&MultiStepRLforReasoning&ToolUse》（利用合成數(shù)據(jù)生成和多階段強化學(xué)習(xí)進行推理和工具使用）。本文提出了一種名為SWiRL(StepWiseReinforcementLearning)的方法，旨在優(yōu)化LLMs在復(fù)雜多步推理和工具使用任務(wù)中的表現(xiàn)。該方法分為兩個主要階段：1.合成數(shù)據(jù)生成：通過迭代式生成多階段（Multistep）的推理和工具使用數(shù)據(jù)，并從中學(xué)習(xí)。2.多...

2025-07-11 06:44:02 2569瀏覽 0點贊 0回復(fù) 0收藏

CMU ｜LLM在數(shù)學(xué)推理能力的提升是否能遷移到其他領(lǐng)域？

這篇文章旨在探討數(shù)學(xué)推理能力的提升是否能泛化到其他領(lǐng)域？研究發(fā)現(xiàn)，盡管許多LLM在數(shù)學(xué)基準測試上取得了顯著進步，但這些提升在很大程度上未能有效遷移到其他領(lǐng)域。通過對20多個開源推理調(diào)優(yōu)模型進行評估，并對Qwen314B模型進行控制實驗，研究發(fā)現(xiàn)，基于強化學(xué)習(xí)（RL）調(diào)優(yōu)的模型展現(xiàn)出更好的跨領(lǐng)域泛化能力，而基于監(jiān)督微調(diào)（SFT）的模型則常常導(dǎo)致通用能力的遺忘。通過對潛在空間表示和token空間分布漂移的分析，揭示了SFT...

2025-07-11 06:36:03 1384瀏覽 0點贊 0回復(fù) 0收藏

NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？

今天分享一篇來自NVIDIA的研究論文，標題為《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》（ProRL：長時間強化學(xué)習(xí)拓展大型語言模型的推理邊界）。這篇文章探討了強化學(xué)習(xí)（RL）是否真正能拓展LLM推理上限？還是僅僅優(yōu)化了其基礎(chǔ)模型中已有的高獎勵輸出的采樣效率，以及持續(xù)擴展RL計算是否能可靠地提高推理性能。作者通過引入ProRL（ProlongedReinforcementLearning）訓(xùn)練方法，證...

2025-06-26 01:02:03 2672瀏覽 0點贊 0回復(fù) 0收藏

ACL25 | DOLPHIN，Closed-loop Auto-research系統(tǒng)來幫你自動做科研了！

今天分享一篇上海人工智能實驗室的文章，標題為DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN：通過思考、實踐和反饋邁向閉環(huán)自動化研究)。這篇文章介紹了一個名為DOLPHIN的閉環(huán)、LLM驅(qū)動的框架，旨在提升科學(xué)研究的自動化水平。該框架模擬人類研究過程，通過迭代循環(huán)進行思考（想法產(chǎn)生）、實踐（實驗驗證）和反饋（結(jié)果分析）。DOLPHIN的方法主要包括三個關(guān)鍵階段：1)想法產(chǎn)生：...

2025-06-13 06:42:33 1900瀏覽 0點贊 0回復(fù) 0收藏

Harvard | RL如何放大pretraining過程中學(xué)到的行為？

今天分享一篇來自HarvardUniversity和KempnerInstitute的文章，標題為EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后訓(xùn)練放大預(yù)訓(xùn)練中學(xué)到的行為)。這篇文章旨在系統(tǒng)性地研究強化學(xué)習(xí)（RL）微調(diào)對語言模型行為的影響，特別是其與預(yù)訓(xùn)練數(shù)據(jù)組成、超參數(shù)和模型規(guī)模的相互作用。該研究通過從頭開始訓(xùn)練模型，并使用完全公開的數(shù)據(jù)集混合物進行預(yù)訓(xùn)練和RL微調(diào)，揭示了RL微調(diào)如何放大預(yù)訓(xùn)練數(shù)據(jù)中的特定模...

2025-05-30 06:03:16 2046瀏覽 0點贊 0回復(fù) 0收藏

人工標注太貴，合成數(shù)據(jù)不夠好？看OS-Genesis如何破解數(shù)據(jù)困局

從1920年的小說《R.U.R》到《鋼鐵俠》中的JARVIS，在過去的一個世紀里，人們一直夢想著構(gòu)建能夠自動化日常工作的DigitalAgents（數(shù)字代理）。如今，隨著視覺語言模型（VLMs）的蓬勃發(fā)展，構(gòu)建這樣的Agents成為了可能。11AgentforGUIControl想要構(gòu)建一個有效的ComputerUseAgents，其必須擁有兩個能力：（1）Planning能力，即規(guī)劃Computeruse任務(wù)的能力，能將用戶給定的（高階）指令分步劃分為多個子目標（2）Action能力，即根據(jù)...

2025-05-19 01:59:53 2095瀏覽 0點贊 0回復(fù) 0收藏

震驚！強化學(xué)習(xí)訓(xùn)練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性

大家好，我是HxShine今天分享一篇來自清華的文章，標題為：“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(強化學(xué)習(xí)真的能激勵大型語言模型(LLM)產(chǎn)生超越基礎(chǔ)模型本身的推理能力嗎？)。這篇文章研究的問題：可驗證獎勵的強化學(xué)習(xí)（RLVR）真能夠使LLM持續(xù)自我改進，獲得超越其對應(yīng)基礎(chǔ)模型的新推理能力嗎？（即強化學(xué)習(xí)能提高base基座模型的天花板嗎？）。研究者通過使用passk指標（...

2025-05-06 07:12:18 2488瀏覽 0點贊 0回復(fù) 0收藏

無需標注數(shù)據(jù)！TTRL用“少數(shù)服從多數(shù)”解鎖大模型測試時強化學(xué)習(xí)新范式

今天分享一篇來自清華大學(xué)和上海人工智能實驗室的文章，標題為TTRL:TestTimeReinforcementLearning（測試時強化學(xué)習(xí)）。這篇文章探討了一個重要且具有挑戰(zhàn)性的問題：如何在沒有顯式標簽（groundtruth）的情況下，利用強化學(xué)習(xí)（RL）在測試階段提升大型語言模型（LLM）在推理任務(wù)上的性能。核心挑戰(zhàn)在于測試時無法獲得真實的獎勵信號。研究者們發(fā)現(xiàn)，像多數(shù)投票（majorityvoting）這類在測試時擴展（TestTimeScaling,TTS）中常用...

2025-05-06 07:09:42 3291瀏覽 0點贊 0回復(fù) 0收藏

香港科技大學(xué)聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學(xué)會“濃縮”推理模式

大家好，我是HxShine今天分享一篇香港科技大學(xué)、DeepSeekAI和上海交通大學(xué)聯(lián)合發(fā)表的文章，標題為：CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction（CODEIO：通過代碼輸入輸出預(yù)測濃縮推理模式）。這篇文章提出了一種名為CODEIO的新方法，旨在通過代碼輸入輸出預(yù)測來提煉和濃縮代碼中蘊含的多種推理模式，從而提升大語言模型（LLMs）的推理能力。該方法的核心思想是將代碼轉(zhuǎn)換為一種輸入輸出預(yù)測任務(wù)，讓模型...

2025-04-21 07:29:26 2776瀏覽 0點贊 0回復(fù) 0收藏

中國科大認知全重實驗室發(fā)布Agent-R1訓(xùn)練框架，支持自主思考與工具調(diào)用！

什么是AgentR1AgentR1是由中科大認知智能全國重點實驗室開發(fā)的智能體強化學(xué)習(xí)訓(xùn)練框架，致力于推進強化學(xué)習(xí)與智能體技術(shù)的融合發(fā)展。框架采用端到端強化學(xué)習(xí)方法，突破了依賴人工設(shè)計工作流的傳統(tǒng)智能體開發(fā)瓶頸，讓AI直接從與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略，實現(xiàn)自主決策與行動。開發(fā)者只需定義特定領(lǐng)域的工具和獎勵函數(shù)，即可將AgentR1擴展到各種應(yīng)用場景，無需編寫復(fù)雜的工作流程。背景隨著大型語言模型(LLM)技術(shù)的快速發(fā)展，智...

2025-04-09 06:29:20 3075瀏覽 0點贊 0回復(fù) 0收藏

Search-R1：讓大模型學(xué)會“檢索+推理”的新范式

今天分享一篇伊利諾伊大學(xué)的文章，標題為：SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning（SearchR1：利用強化學(xué)習(xí)訓(xùn)練LLM進行推理并利用搜索引擎）。這篇文章是關(guān)于如何訓(xùn)練大型語言模型（LLMs）有效地利用搜索引擎來增強其推理和文本生成能力。論文提出了一個名為SEARCHR1的框架，該框架僅僅通過強化學(xué)習(xí)（RL）讓LLM學(xué)習(xí)如何在逐步推理過程中自主生成搜索查詢并與實時檢索交互。該方法特...

2025-03-27 00:09:53 3858瀏覽 0點贊 0回復(fù) 0收藏

獲得成就

已積累 4.7w 人氣

獲得 0 個點贊

獲得 1 次收藏

<cite id="vd6cy"></cite>