OpenAI 推出了一個基準測試框架,旨在衡量 AI 代理在檢測、緩解甚至利用加密貨幣安全漏洞方面的有效性OpenAI 推出了一個基準測試框架,旨在衡量 AI 代理在檢測、緩解甚至利用加密貨幣安全漏洞方面的有效性

OpenAI 讓 AI 代理相互對抗以紅隊測試智能合約

2026/02/19 09:26
閱讀時長 11 分鐘
Openai Pits Ai Agents Against Each Other To Red-Team Smart Contracts

OpenAI 推出了一個基準測試框架,旨在衡量 AI 代理在檢測、緩解甚至利用加密智能合約安全漏洞方面的有效性。該項目名為「EVMbench:評估 AI 代理在智能合約安全方面的表現」,是與 Paradigm 和 OtterSec 合作發布的,這兩個組織在區塊鏈安全和投資方面擁有豐富經驗。該研究針對從 40 份智能合約審計中精選出的 120 個潛在弱點評估 AI 代理,不僅試圖量化檢測和修補能力,還在受控環境中量化這些代理的理論利用潛力。

重點摘要

  • EVMbench 針對從 40 份智能合約審計中精選的 120 個漏洞測試 AI 代理,重點關注來自開源審計競賽的漏洞。
  • 在測試的模型中,Anthropic 的 Claude Opus 4.6 以平均檢測獎勵 37,824 美元領先,其次是 OpenAI 的 OC-GPT-5.2(31,623 美元)和 Google 的 Gemini 3 Pro(25,112 美元)。
  • OpenAI 將該基準測試定位為衡量 AI 在「具有經濟意義的環境」中的表現的一步,而非僅限於模擬任務,突顯了對加密安全領域攻擊者和防禦者的實際影響。
  • 研究人員指出,智能合約保護著價值數十億美元的資產,凸顯了 AI 驅動工具對進攻性和防禦性活動的戰略價值。
  • 業界觀察人士將這些發展與關於 AI 驅動支付和穩定幣在日常交易中作用的更廣泛討論聯繫起來,主要高管預測未來幾年代理使用量將增加。
  • 此類工作的背景由 2025 年的加密安全事件數據強調,顯示資金持續透過漏洞和攻擊流動,加強了對強大的 AI 驅動審計和防禦機制的需求。

AI 代理的檢測獎勵在隨研究附帶的 OpenAI PDF 中有詳細說明,該文件還描述了評估方法和用於模擬真實智能合約風險的場景。作者強調,雖然 AI 代理已經發展到可以自動執行各種日常任務,但在「具有經濟意義的環境」中評估其表現對於了解它們在生產系統壓力下的表現至關重要。

OpenAI 指出,預期代理技術將擴大支付和結算的範圍,包括在自動化工作流程中使用的穩定幣。圍繞 AI 驅動支付的討論超越了安全測試,延伸到自主系統如何參與日常金融活動的更廣泛問題。該公司自己的預測表明,代理支付可能變得更加普遍,將 AI 能力紮根於觸及日常消費者交易的實際用例中。

與基準測試結果同時,Circle 執行長 Jeremy Allaire 公開預測,在未來五年內,數十億個 AI 代理可能會使用穩定幣進行日常支付交易。這一觀點與加密圈中反覆出現的主題相交:加密貨幣成為 AI 代理原生貨幣的潛力,這一敘事已經獲得了業界領袖和投資者的顯著關注。雖然這些預測仍具投機性,但潛在趨勢很明確——AI 自動化正在從實驗室轉向交易層,它可能重塑價值如何在網絡間流動。

該研究發布之際,加密安全繼續成為投資者的重大風險因素。關於 2025 年對加密資金的攻擊——攻擊者奪走了約 34 億美元——的數據點突顯了改進工具和更快、更可靠的修補機制的緊迫性。EVMbench 框架的部分定位是衡量 AI 代理是否能夠在規模上有意義地貢獻防禦能力,減少利用機會並加速威脅緩解。

為了建立基準測試,研究人員利用了跨越 40 份智能合約審計的 120 個精選漏洞,其中許多弱點可追溯到開源審計挑戰。OpenAI 認為,該基準測試將有助於追蹤 AI 在大規模識別和緩解合約級弱點方面的進展,提供一種標準化方式來比較未來的 AI 模型隨著它們的演進。該研究還提供了一個視角,說明 AI 如何應用於規範化各種智能合約架構的風險評估,而不僅僅關注孤立案例。

智能合約並非為人類而建:Dragonfly

在 X 上的同期討論串中,Dragonfly 的合夥人 Haseeb Qureshi 認為,加密貨幣取代財產權和傳統合約的承諾從未實現,不是因為技術失敗,而是因為它從未以人類直覺為設計考量。他強調了在排空錢包和其他攻擊媒介仍是持續威脅的環境中簽署大額交易時的持續恐懼,與傳統銀行轉帳相對流暢的體驗形成鮮明對比。

Qureshi 主張,加密交易的下一階段可能由 AI 中介的自動駕駛錢包實現。這類錢包將監控風險、管理複雜操作,並代表用戶自主應對威脅,可能減少當今大額轉帳的摩擦和恐懼。

這個討論串的更廣泛啟示是,AI 代理可能在轉變人們與加密貨幣互動方式方面發揮關鍵作用——從手動、易錯的交易轉變為可以隨採用而擴展的自動化、風險感知流程。隨著 AI 代理開始在處理安全問題方面展現更多能力,用戶可能會在去中心化金融工作流程中看到改善的可靠性和韌性,即使底層技術持續成熟。

接下來值得關注的

  • 完整 EVMbench 數據集在更多 AI 模型和架構上的發布和獨立複製。
  • 審計人員、交易所和尋求增強安全態勢的 DeFi 項目更廣泛地採用 AI 輔助審計工作流程。
  • 探索代理錢包和自主支付流程,包括 AI 管理資產的監管和合規考量。
  • 隨著新版本推出,比較更多 AI 系統的後續基準測試,追蹤檢測準確性和修補速度的改進。

來源與驗證

  • OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
  • OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
  • Crypto security losses in 2025 (reporting coverage): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
  • Dragonfly: Haseeb Qureshi on AI and crypto UX (X post): https://x.com/hosseeb/status/2024136762424185208
  • China's AI lead and crypto implications (analysis): https://cointelegraph.com/news/china-ai-lead-future
  • AI Eye — IronClaw and AI bot developments in Polymarket coverage: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

關鍵數據與後續步驟

EVMbench 研究顯示,大型語言模型和相關 AI 代理開始在智能合約領域執行有意義的安全工作,模型之間存在明確可量化的差異。Claude Opus 4.6 在平均檢測獎勵方面的領先地位表明,某些架構可能更擅長在複雜合約邏輯中發現和緩解漏洞,而其他架構則落後,提供了研究人員可能希望改進的一系列能力。該項目中包含多個行業合作夥伴關係,凸顯了日益增長的共識,即 AI 驅動的安全和自動化風險管理可能成為去中心化環境規模化的關鍵。

隨著該領域的發展,觀察者將關注 AI 代理從檢測過渡到修復的速度,以及這些代理是否能在實時系統中可靠運行而不引入新風險。關於 AI 驅動錢包和自主支付的對話涉及圍繞安全治理、用戶同意和監管一致性的更廣泛問題。如果 OpenAI 及其合作夥伴建議的軌跡持續下去,AI 輔助工具可能成為未來加密基礎設施的核心組成部分,以有意義的方式改變風險計算和用戶體驗。下一輪基準測試以及實際部署將有助於確定這一願景實現的速度以及必須伴隨的保障措施。

本文最初以 OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts 為標題發布於 Crypto Breaking News——您值得信賴的加密新聞、Bitcoin 新聞和區塊鏈更新來源。

市場機遇
Smart Blockchain 圖標
Smart Blockchain實時價格 (SMART)
$0.004393
$0.004393$0.004393
-2.00%
USD
Smart Blockchain (SMART) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。