多模態(tài)BUG修復(fù)新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜單第一

2025-09-16 09:09:03

為了解決多模態(tài)修復(fù)場景，來自慕尼黑工業(yè)大學(xué)?Software Engineering & AI 團(tuán)隊(duì)帶來了一項(xiàng)最新研究成果。

自動(dòng)化修復(fù)真實(shí)世界的軟件缺陷問題是自動(dòng)化程序修復(fù)研究社區(qū)的長期目標(biāo)。然而，如何自動(dòng)化解決視覺軟件缺陷仍然是一個(gè)尚未充分探索的領(lǐng)域。最近，隨著 SWE-bench 團(tuán)隊(duì)發(fā)布最新的多模態(tài) Issue 修復(fù)基準(zhǔn) SWE-bench Multimodal，多模態(tài)問題修復(fù)引起了研究人員的廣泛關(guān)注，如何有效的解決這類多模態(tài)問題對(duì)現(xiàn)有的修復(fù)系統(tǒng)呈現(xiàn)出關(guān)鍵挑戰(zhàn)。

為了解決多模態(tài)修復(fù)場景，來自慕尼黑工業(yè)大學(xué) Software Engineering & AI 團(tuán)隊(duì)帶來了一項(xiàng)最新研究成果：GUIRepair ——《Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Repair》。這項(xiàng)工作已經(jīng)成功登上了 SWE-bench Multimodal 排行榜的第一名，為多模態(tài)軟件自動(dòng)修復(fù)開辟了一條充滿潛力的道路。目前，該論文已被軟件工程領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議 ASE 2025 接收。

論文標(biāo)題：Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
論文鏈接：https://arxiv.org/abs/2506.16136

研究動(dòng)機(jī)：為什么要研究 “視覺軟件問題”？

在軟件工程領(lǐng)域，自動(dòng)程序修復(fù)（Automated Program Repair, APR）是一個(gè)重要方向。它的目標(biāo)是利用智能技術(shù)，自動(dòng)為開發(fā)者定位并修復(fù) bug，從而節(jié)省大量人工調(diào)試的成本。隨著大語言模型（LLM）的發(fā)展，APR 在許多經(jīng)典基準(zhǔn)（如 SWE-bench、Defects4J）上已經(jīng)展現(xiàn)出了很強(qiáng)的性能。

然而，這些研究幾乎都停留在單一模態(tài)（unimodal）的層面：

輸入是文本描述（issue 報(bào)告），
再結(jié)合源代碼，
讓 LLM 來推理修復(fù)。

但現(xiàn)實(shí)中的軟件開發(fā)并沒有這么 “單一”。

在現(xiàn)代前端開發(fā)和 GUI 應(yīng)用中，用戶和開發(fā)者在報(bào)告問題時(shí)，往往會(huì)附上多模態(tài)（multimodal）信息，例如使用屏幕截圖來呈現(xiàn)并記錄具體的問題場景：

組件位置錯(cuò)亂
圖表顯示異常
按鈕樣式錯(cuò)誤……

這些 GUI 相關(guān)的問題單靠文字難以描述清楚，截圖提供的視覺信息往往至關(guān)重要。

然而，現(xiàn)有的 APR 系統(tǒng)很少關(guān)注視覺軟件領(lǐng)域，它們很難直接利用并充分理解這些視覺信息。

與此同時(shí)，GUI Testing 社區(qū)雖然關(guān)注 GUI 相關(guān)的軟件問題，但他們的研究重點(diǎn)是： “如何發(fā)現(xiàn) / 暴露 bug？”

卻很少考慮：“如何自動(dòng)修復(fù)這些 bug？”

于是，APR 和 GUI Testing 之間出現(xiàn)了一道 “斷層”。

解決思路：跨模態(tài)推理（Seeing is Fixing）

帶著這個(gè)問題，我們提出了 GUIRepair —— 一個(gè)將 APR 與 GUI Testing 的經(jīng)驗(yàn)知識(shí)巧妙融合的跨模態(tài)自動(dòng)修復(fù)框架。

它的設(shè)計(jì)哲學(xué)可以用一句話來概括：

Seeing is Fixing —— 只有真正 “看見” 問題，才能更好地 “修復(fù)” 問題。

GUIRepair 的核心由兩個(gè)互補(bǔ)的跨模態(tài)組件構(gòu)成：

1. Image2Code

目標(biāo)：幫助模型更好地理解前端的視覺問題。
方法：將視覺元素轉(zhuǎn)化為可執(zhí)行的代碼上下文，讓 LLM 能夠從 “圖像” 中反推出 “代碼行為”。
意義：就像開發(fā)者看到界面異常時(shí)，會(huì)想到是哪個(gè)代碼片段導(dǎo)致了這個(gè) UI 錯(cuò)誤。

2. Code2Image

目標(biāo)：幫助模型驗(yàn)證修復(fù)是否真正奏效。
方法：將補(bǔ)丁的代碼行為重新渲染為視覺輸出，以提供修復(fù)行為的視覺化反饋。
意義：不是只靠 “編譯是否通過”，而是讓模型像人類開發(fā)者一樣自己 “觀察” 修復(fù)后的界面效果。

通過這兩個(gè)組件，GUIRepair 在修復(fù)流程中實(shí)現(xiàn)了跨模態(tài)的雙向轉(zhuǎn)換以將視覺信息與代碼行為建立聯(lián)系：

從圖像 → 代碼的理解（理解問題），
再到代碼 → 圖像的驗(yàn)證（確認(rèn)修復(fù)）。

實(shí)驗(yàn)結(jié)果：SWE-bench Multimodal 新 SOTA！

我們?cè)?nbsp;SWE-bench Multimodal（SWE-bench M）上對(duì) GUIRepair 進(jìn)行了系統(tǒng)評(píng)測。

這是目前最具挑戰(zhàn)性的基準(zhǔn)之一，涵蓋了 517 個(gè)真實(shí)的多模態(tài)問題，廣泛來源于開源 JavaScript 庫（如 bpmn-js、carbon、openlayers 等）。

實(shí)驗(yàn)結(jié)果顯示：

GUIRepair 在使用 GPT-4o 作為基座模型時(shí)，成功解決了 30.37% 的任務(wù)實(shí)例，超越了現(xiàn)有的使用相同模型的修復(fù)系統(tǒng)。
當(dāng)使用更強(qiáng)的 o3 模型時(shí)，GUIRepair 更是達(dá)到了 35.98% 的修復(fù)成績，超過了現(xiàn)有的所有開源和商業(yè)修復(fù)系統(tǒng)。
這也讓 GUIRepair 成功登頂 SWE-bench Multimodal 排行榜第一！

這項(xiàng)工作的意義

我們認(rèn)為 GUIRepair 的貢獻(xiàn)不僅僅是排行榜上的第一名，更在于它打開了一條新的研究方向：

過去 APR 的研究重點(diǎn)在 “文本 + 代碼”；
GUI Testing 的重點(diǎn)在 “發(fā)現(xiàn)問題”；
而 GUIRepair 把二者結(jié)合起來，真正讓模型具備了視覺理解 + 自動(dòng)修復(fù) 的能力。

因此，我們想借用一句經(jīng)典的話來總結(jié)：

這是多模態(tài)軟件工程的一小步，卻是自動(dòng)化程序修復(fù)的一大步。

總結(jié)

自動(dòng)修復(fù)前端視覺問題，這曾經(jīng)是一個(gè)被忽視的 “角落”。

而現(xiàn)在，我們希望通過 GUIRepair 讓大家看到：跨模態(tài)的力量，正在推動(dòng)自動(dòng)化多模態(tài)軟件工程進(jìn)入一個(gè)新的時(shí)代。

也許今天只是一個(gè)小小的起點(diǎn)，但我們更期待未來的多模態(tài)軟件工程研究將具有更廣泛的應(yīng)用場景和更強(qiáng)大的任務(wù)解決能力。

作者介紹

Kai Huang，慕尼黑工業(yè)大學(xué) Software Engineering & AI 團(tuán)隊(duì)博士生，研究方向?yàn)槎嗄B(tài)軟件工程，以第一作者身份發(fā)表軟件工程領(lǐng)域頂級(jí)會(huì)議或期刊論文 6 篇，并獲得 ACM 杰出論文獎(jiǎng)項(xiàng)。

Chunyang Chen，慕尼黑工業(yè)大學(xué)正教授，領(lǐng)導(dǎo) Software Engineering & AI 團(tuán)隊(duì)。團(tuán)隊(duì)研究關(guān)注于軟件工程、深度學(xué)習(xí)、以及人機(jī)交互等領(lǐng)域。

Jian Zhang，南洋理工大學(xué)研究員，主要關(guān)注 AI4SE 研究領(lǐng)域，他的工作主要發(fā)表在多個(gè)軟件工程領(lǐng)域頂級(jí)場所（ICSE, FSE, ASE, ISSTA）。

Xiaofei Xie，新加坡管理大學(xué)助理教授，他的研究領(lǐng)域主要集中在人工智能系統(tǒng)的程序分析、軟件測試、漏洞檢測和質(zhì)量保證。

團(tuán)隊(duì)介紹

慕尼黑工業(yè)大學(xué) TUM “Software Engineering & AI” 團(tuán)隊(duì)隸屬于 TUM 計(jì)算、信息與技術(shù)學(xué)院（School of Computation, Information and Technology, CIT），由陳春陽教授（Prof. Dr. Chunyang Chen）領(lǐng)導(dǎo)，坐落于德國 Heilbronn 校區(qū)。團(tuán)隊(duì)致力于軟件工程、深度學(xué)習(xí)與人機(jī)交互等方向的前沿研究，并積極與全球?qū)W術(shù)界與產(chǎn)業(yè)界開展合作，歡迎各種形式的交流與合作。