OpenAI首個GPT-5找Bug智能體:全自動讀代碼找漏洞寫修復
AI Coding火了大半年,AI Debugging也來了!
剛剛,OpenAI發(fā)布由GPT-5驅動的“白帽”Agent——Aardvark(土豚)。

這只“AI安全研究員”能幫助開發(fā)者和安全團隊,在大規(guī)模代碼庫中自動發(fā)現(xiàn)并修復安全漏洞。
據(jù)OpenAI報告,Aardvark已識別出了92%的已知與人工注入漏洞,而且能定位僅在復雜條件下出現(xiàn)的問題。
OpenAI副總裁Matt Knight表示:
我們的開發(fā)者發(fā)現(xiàn),土豚在清晰地解釋問題并引導他們找到修復方案方面確實非常有價值。這個信號告訴我們,我們正走在一條有意義的道路上。
而且,不僅OpenAI。
整個10月Anthropic、谷歌、微軟基本上是前腳跟后腳發(fā)布了類似的白帽Agent。
這是怎么一回事。
Agentic AI +自動修補漏洞
OpenAI對這款白帽Aardvark的官方描述是——代理型安全研究員(agentic security researcher)
Aardvark的核心任務是持續(xù)分析源代碼倉庫,以識別安全漏洞、評估可利用性、確定風險等級,并提出有針對性的修復方案。
它通過監(jiān)控代碼提交(commits)與變更來工作,自動識別潛在漏洞、推斷攻擊路徑并生成修復建議。
Aardvark并不依賴傳統(tǒng)的程序分析技術(如模糊測試fuzzing或軟件成分分析SCA),而是運用大語言模型驅動的推理與工具使用能力來理解代碼行為,像人類安全研究員那樣閱讀、分析代碼、編寫測試并運行驗證。
具體來說,它的工作流程從Git倉庫出發(fā),依次經(jīng)歷:威脅建?!┒窗l(fā)現(xiàn)→沙盒驗證→Codex 修復→人工復審→ 提交Pull Request。

- 分析:對整個倉庫進行全面分析,生成反映項目安全目標與設計的威脅模型(threat model)。
- 提交掃描:新代碼提交時,結合倉庫和威脅模型掃描差異;首次連接倉庫時回溯歷史提交。同時解釋發(fā)現(xiàn)的漏洞,在代碼中標注,便于人工復審。
- 驗證:一旦識別出潛在漏洞,將在隔離環(huán)境中觸發(fā)潛在漏洞,確認可利用性,同時說明驗證步驟,確保結果準確且誤報率低。
- 修復:Aardvark與OpenAI Codex深度集成,為漏洞生成修復補丁,附于報告中,便于一鍵審閱與應用。
目前,Aardvark可無縫集成GitHub、Codex及現(xiàn)有開發(fā)流程,在不影響開發(fā)效率的前提下提供可執(zhí)行的安全洞察。
內(nèi)部測試顯示,它不僅能識別安全漏洞,還能發(fā)現(xiàn)邏輯缺陷、不完整修復及隱私風險。
而且,Aardvark 已在內(nèi)部和合作伙伴項目中測試運行,表現(xiàn)出色,驗證了其實際可用性。
正如開頭提到的,它不僅能夠進行深度分析、定位僅在復雜條件下出現(xiàn)的問題,在對“黃金測試倉庫(golden repositories)”的基準測試中,也實現(xiàn)了92%的識別率。
此外,Aardvark也已應用于多個開源項目,發(fā)現(xiàn)并負責披露了眾多漏洞,其中10個已獲得CVE編號。
OpenAI表示將為部分非商業(yè)開源倉庫提供公益掃描服務,并提升整個開源生態(tài)與供應鏈的安全性。
Aardvark現(xiàn)已開啟內(nèi)測,有需要的開發(fā)者可以直接在官網(wǎng)申請。
AI編程完,AI來修
就像開頭提到的,不僅是OpenAI,其他科技巨頭也在積極布局Agentic?AI+代碼安全。
整個10月,谷歌、Anthropic、微軟就想提前約好了似的,紛紛發(fā)布相關動作,OpenAI這次反而顯得稍晚。
例如,Anthropic在10月4號表示將Claude Sonnet 4.5應用于代碼安全任務。

據(jù)悉,Claude Sonnet 4.5在發(fā)現(xiàn)代碼漏洞和其他網(wǎng)絡安全技能方面,性能已經(jīng)超越了Opus 4.1,并且價格更低、速度更快。
谷歌在10月6號發(fā)布了CodeMender,利用Gemini Deep Think模型,實現(xiàn)自主調試和漏洞修復。

微軟在10月16號發(fā)布了Vuln.AI,正式宣告使用AI進行漏洞管理,而在10月的最后一天,OpenAI也是姍姍來遲,跟上了這次更新的節(jié)奏。
(注:各家在發(fā)布前均進行了數(shù)月的測試和驗證)
那么,為什么這些巨頭都選擇在此時發(fā)力AI代碼安全呢?
OpenAI以及其他公司的解釋高度一致:人工Debug與傳統(tǒng)的自動化方法(如模糊測試)已經(jīng)跟不上大規(guī)模代碼庫的漏洞發(fā)現(xiàn)與修復需求。
一方面,企業(yè)級網(wǎng)絡中設備、服務、代碼庫數(shù)量巨大,另一方面AI技術雖能提高生產(chǎn)力,但也被用于快速尋找漏洞、生成攻擊代碼。
因此,在漏洞數(shù)量激增、攻擊手段日益智能化的背景下,借助AI自動化發(fā)現(xiàn)與修復漏洞,已成為確保軟件安全和降低企業(yè)風險的關鍵手段。
不過,大廠說管說,倒是有網(wǎng)友發(fā)現(xiàn)了“華點”:
我們有一個會制造安全漏洞的Agent,也有一個會修復安全漏洞的Agent,這就是最好的商業(yè)模式。






































