FM Agent登頂OpenAI MLE-Bench，由百度智能云研發(fā)

2025-10-24 17:46:25

近日，百度智能云研發(fā)的FM Agent登頂OpenAI機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)MLE-Bench，拿下SOTA成績(jī)，超越微軟R&D Agent和OpenAI展示的AIDE系統(tǒng)。

據(jù)了解，MLE-Bench由OpenAI主導(dǎo)，是目前評(píng)估AI Agent“實(shí)戰(zhàn)”能力的核心榜單。該基準(zhǔn)含金量極高，其測(cè)試集包含了75個(gè)真實(shí)的Kaggle競(jìng)賽項(xiàng)目——這些項(xiàng)目均為往年全球頂尖數(shù)據(jù)科學(xué)家團(tuán)隊(duì)參與解決的真實(shí)工程難題，測(cè)試AI在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)運(yùn)行等機(jī)器學(xué)習(xí)工程中的能力。

公開(kāi)信息顯示，百度FM Agent在“中等”和“高難度”任務(wù)上的表現(xiàn)顯著領(lǐng)先，顯示出強(qiáng)大的攻堅(jiān)能力。同時(shí)，該Agent框架具備自主優(yōu)化能力，通過(guò)構(gòu)建具備自驅(qū)演化的智能系統(tǒng)，系統(tǒng)性分析問(wèn)題、并自主優(yōu)化解決方案。

近期百度在AI領(lǐng)域動(dòng)作頻頻，最新開(kāi)源的文心4.5衍生模型PaddleOCR-VL模型以0.9B參數(shù)量，在全球權(quán)威榜單OmniDocBench v1.0+v1.5雙榜奪得綜合性能第一、四項(xiàng)子任務(wù)全線(xiàn)SOTA成績(jī)。另?yè)?jù)市場(chǎng)消息，百度年度最重要的科技大會(huì)“百度世界2025”已定檔11月13日。

責(zé)任編輯：鳶瑋來(lái)源：百度智能云

百度智能云 FM Agent

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

FM Agent登頂OpenAI MLE-Bench，由百度智能云研發(fā)