FM Agent登頂OpenAI MLE-Bench,由百度智能云研發(fā)
近日,百度智能云研發(fā)的FM Agent登頂OpenAI機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)MLE-Bench,拿下SOTA成績(jī),超越微軟R&D Agent和OpenAI展示的AIDE系統(tǒng)。

據(jù)了解,MLE-Bench由OpenAI主導(dǎo),是目前評(píng)估AI Agent“實(shí)戰(zhàn)”能力的核心榜單。該基準(zhǔn)含金量極高,其測(cè)試集包含了75個(gè)真實(shí)的Kaggle競(jìng)賽項(xiàng)目——這些項(xiàng)目均為往年全球頂尖數(shù)據(jù)科學(xué)家團(tuán)隊(duì)參與解決的真實(shí)工程難題,測(cè)試AI在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)運(yùn)行等機(jī)器學(xué)習(xí)工程中的能力。
公開(kāi)信息顯示,百度FM Agent在“中等”和“高難度”任務(wù)上的表現(xiàn)顯著領(lǐng)先,顯示出強(qiáng)大的攻堅(jiān)能力。同時(shí),該Agent框架具備自主優(yōu)化能力,通過(guò)構(gòu)建具備自驅(qū)演化的智能系統(tǒng),系統(tǒng)性分析問(wèn)題、并自主優(yōu)化解決方案。
近期百度在AI領(lǐng)域動(dòng)作頻頻,最新開(kāi)源的文心4.5衍生模型PaddleOCR-VL模型以0.9B參數(shù)量,在全球權(quán)威榜單OmniDocBench v1.0+v1.5雙榜奪得綜合性能第一、四項(xiàng)子任務(wù)全線(xiàn)SOTA成績(jī)。另?yè)?jù)市場(chǎng)消息,百度年度最重要的科技大會(huì)“百度世界2025”已定檔11月13日。





















