多模態(tài)BUG修復(fù)新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜單第一
自動(dòng)化修復(fù)真實(shí)世界的軟件缺陷問題是自動(dòng)化程序修復(fù)研究社區(qū)的長期目標(biāo)。然而,如何自動(dòng)化解決視覺軟件缺陷仍然是一個(gè)尚未充分探索的領(lǐng)域。最近,隨著 SWE-bench 團(tuán)隊(duì)發(fā)布最新的多模態(tài) Issue 修復(fù)基準(zhǔn) SWE-bench Multimodal,多模態(tài)問題修復(fù)引起了研究人員的廣泛關(guān)注,如何有效的解決這類多模態(tài)問題對(duì)現(xiàn)有的修復(fù)系統(tǒng)呈現(xiàn)出關(guān)鍵挑戰(zhàn)。
為了解決多模態(tài)修復(fù)場景,來自慕尼黑工業(yè)大學(xué) Software Engineering & AI 團(tuán)隊(duì)帶來了一項(xiàng)最新研究成果:GUIRepair ——《Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Repair》。這項(xiàng)工作已經(jīng)成功登上了 SWE-bench Multimodal 排行榜的第一名 ,為多模態(tài)軟件自動(dòng)修復(fù)開辟了一條充滿潛力的道路。目前,該論文已被軟件工程領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議 ASE 2025 接收。

- 論文標(biāo)題:Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
- 論文鏈接:https://arxiv.org/abs/2506.16136
研究動(dòng)機(jī):為什么要研究 “視覺軟件問題”?
在軟件工程領(lǐng)域,自動(dòng)程序修復(fù)(Automated Program Repair, APR) 是一個(gè)重要方向。它的目標(biāo)是利用智能技術(shù),自動(dòng)為開發(fā)者定位并修復(fù) bug,從而節(jié)省大量人工調(diào)試的成本。隨著大語言模型(LLM)的發(fā)展,APR 在許多經(jīng)典基準(zhǔn)(如 SWE-bench、Defects4J)上已經(jīng)展現(xiàn)出了很強(qiáng)的性能。
然而,這些研究幾乎都停留在 單一模態(tài)(unimodal) 的層面:
- 輸入是 文本描述(issue 報(bào)告),
- 再結(jié)合 源代碼,
- 讓 LLM 來推理修復(fù)。
但現(xiàn)實(shí)中的軟件開發(fā)并沒有這么 “單一”。
在現(xiàn)代前端開發(fā)和 GUI 應(yīng)用中,用戶和開發(fā)者在報(bào)告問題時(shí),往往會(huì)附上 多模態(tài)(multimodal)信息,例如使用屏幕截圖來呈現(xiàn)并記錄具體的問題場景:
- 組件位置錯(cuò)亂
- 圖表顯示異常
- 按鈕樣式錯(cuò)誤……

這些 GUI 相關(guān)的問題單靠文字難以描述清楚,截圖提供的視覺信息往往至關(guān)重要。
然而,現(xiàn)有的 APR 系統(tǒng)很少關(guān)注視覺軟件領(lǐng)域,它們很難直接利用并充分理解這些視覺信息。
與此同時(shí),GUI Testing 社區(qū)雖然關(guān)注 GUI 相關(guān)的軟件問題,但他們的研究重點(diǎn)是: “如何發(fā)現(xiàn) / 暴露 bug?”
卻很少考慮:“如何自動(dòng)修復(fù)這些 bug?”
于是,APR 和 GUI Testing 之間出現(xiàn)了一道 “斷層”。
解決思路:跨模態(tài)推理(Seeing is Fixing)
帶著這個(gè)問題,我們提出了 GUIRepair —— 一個(gè)將 APR 與 GUI Testing 的經(jīng)驗(yàn)知識(shí)巧妙融合的跨模態(tài)自動(dòng)修復(fù)框架。

它的設(shè)計(jì)哲學(xué)可以用一句話來概括:
Seeing is Fixing —— 只有真正 “看見” 問題,才能更好地 “修復(fù)” 問題。
GUIRepair 的核心由兩個(gè)互補(bǔ)的跨模態(tài)組件構(gòu)成:
1. Image2Code
- 目標(biāo):幫助模型更好地理解前端的視覺問題。
- 方法:將視覺元素轉(zhuǎn)化為可執(zhí)行的代碼上下文,讓 LLM 能夠從 “圖像” 中反推出 “代碼行為”。
- 意義:就像開發(fā)者看到界面異常時(shí),會(huì)想到是哪個(gè)代碼片段導(dǎo)致了這個(gè) UI 錯(cuò)誤。
2. Code2Image
- 目標(biāo):幫助模型驗(yàn)證修復(fù)是否真正奏效。
- 方法:將補(bǔ)丁的代碼行為重新渲染為視覺輸出,以提供修復(fù)行為的視覺化反饋。
- 意義:不是只靠 “編譯是否通過”,而是 讓模型像人類開發(fā)者一樣自己 “觀察” 修復(fù)后的界面效果。
通過這兩個(gè)組件,GUIRepair 在修復(fù)流程中實(shí)現(xiàn)了 跨模態(tài)的雙向轉(zhuǎn)換 以將視覺信息與代碼行為建立聯(lián)系:
- 從 圖像 → 代碼 的理解(理解問題),
- 再到 代碼 → 圖像 的驗(yàn)證(確認(rèn)修復(fù))。
實(shí)驗(yàn)結(jié)果:SWE-bench Multimodal 新 SOTA!
我們?cè)?nbsp;SWE-bench Multimodal(SWE-bench M)上對(duì) GUIRepair 進(jìn)行了系統(tǒng)評(píng)測。
這是目前最具挑戰(zhàn)性的基準(zhǔn)之一,涵蓋了 517 個(gè)真實(shí)的多模態(tài)問題,廣泛來源于開源 JavaScript 庫(如 bpmn-js、carbon、openlayers 等)。
實(shí)驗(yàn)結(jié)果顯示:
- GUIRepair 在使用 GPT-4o 作為基座模型時(shí),成功解決了 30.37% 的任務(wù)實(shí)例,超越了現(xiàn)有的使用相同模型的修復(fù)系統(tǒng)。
- 當(dāng)使用更強(qiáng)的 o3 模型時(shí),GUIRepair 更是達(dá)到了 35.98% 的修復(fù)成績,超過了現(xiàn)有的所有開源和商業(yè)修復(fù)系統(tǒng)。
- 這也讓 GUIRepair 成功登頂 SWE-bench Multimodal 排行榜第一!

這項(xiàng)工作的意義
我們認(rèn)為 GUIRepair 的貢獻(xiàn)不僅僅是排行榜上的第一名,更在于它打開了一條 新的研究方向:
- 過去 APR 的研究重點(diǎn)在 “文本 + 代碼”;
- GUI Testing 的重點(diǎn)在 “發(fā)現(xiàn)問題”;
- 而 GUIRepair 把二者結(jié)合起來,真正讓模型具備了 視覺理解 + 自動(dòng)修復(fù) 的能力。
因此,我們想借用一句經(jīng)典的話來總結(jié):
這是多模態(tài)軟件工程的一小步,卻是自動(dòng)化程序修復(fù)的一大步。
總結(jié)
自動(dòng)修復(fù)前端視覺問題,這曾經(jīng)是一個(gè)被忽視的 “角落”。
而現(xiàn)在,我們希望通過 GUIRepair 讓大家看到:跨模態(tài)的力量,正在推動(dòng)自動(dòng)化多模態(tài)軟件工程進(jìn)入一個(gè)新的時(shí)代。
也許今天只是一個(gè)小小的起點(diǎn),但我們更期待未來的多模態(tài)軟件工程研究將具有更廣泛的應(yīng)用場景和更強(qiáng)大的任務(wù)解決能力。
作者介紹
Kai Huang,慕尼黑工業(yè)大學(xué) Software Engineering & AI 團(tuán)隊(duì)博士生,研究方向?yàn)槎嗄B(tài)軟件工程,以第一作者身份發(fā)表軟件工程領(lǐng)域頂級(jí)會(huì)議或期刊論文 6 篇,并獲得 ACM 杰出論文獎(jiǎng)項(xiàng)。
Chunyang Chen,慕尼黑工業(yè)大學(xué)正教授,領(lǐng)導(dǎo) Software Engineering & AI 團(tuán)隊(duì)。團(tuán)隊(duì)研究關(guān)注于軟件工程、深度學(xué)習(xí)、以及人機(jī)交互等領(lǐng)域。
Jian Zhang,南洋理工大學(xué)研究員,主要關(guān)注 AI4SE 研究領(lǐng)域,他的工作主要發(fā)表在多個(gè)軟件工程領(lǐng)域頂級(jí)場所(ICSE, FSE, ASE, ISSTA)。
Xiaofei Xie,新加坡管理大學(xué)助理教授,他的研究領(lǐng)域主要集中在人工智能系統(tǒng)的程序分析、軟件測試、漏洞檢測和質(zhì)量保證。
團(tuán)隊(duì)介紹
慕尼黑工業(yè)大學(xué) TUM “Software Engineering & AI” 團(tuán)隊(duì)隸屬于 TUM 計(jì)算、信息與技術(shù)學(xué)院(School of Computation, Information and Technology, CIT),由陳春陽教授(Prof. Dr. Chunyang Chen)領(lǐng)導(dǎo),坐落于德國 Heilbronn 校區(qū)。團(tuán)隊(duì)致力于軟件工程、深度學(xué)習(xí)與人機(jī)交互等方向的前沿研究,并積極與全球?qū)W術(shù)界與產(chǎn)業(yè)界開展合作,歡迎各種形式的交流與合作。




































