
挖一个真实大型仓库的漏洞过去要靠资深红队几天甚至几周。现在有人把这件事做成了流水线跑一遍 1461 美元挖出 144 个能自动复现的漏洞。这不是演示是 8 个真实开源项目上的实测结果——OpenSSL、WordPress、Rails 都在里面。如果你还把渗透测试当成一年做一两次的项目攻击方的节奏早已经不在你这条时间线上了。为什么AI 挖洞过去一直不好用先说清楚一件事让 AI 读代码挖漏洞不是新想法。难的是让它在真实仓库里挖到真能被利用的漏洞而不是停在看起来像漏洞那一层。过去有两条路各有死穴。一条是静态扫描SAST。它靠人工写的规则去匹配代码模式跑得快、能塞进流水线但规则永远追不上真实世界里千变万化的漏洞写法——写严了一片误报写松了直接漏报。实证研究里它的误报率能从个位数飙到 40% 以上。结果是只有大约两成开发者愿意主动用剩下的告警全淹没在噪声里。另一条是模糊测试Fuzzing。它精确但要为每一个目标准备繁复的编译、插桩、执行环境很难规模化推开。那把整个仓库直接丢给大模型呢也不行会撞上三个工程难题。上下文窗口塞不下百万行代码就算塞进去模型对长序列中段的信息识别会明显下降按 token 计费的 API 面对这种规模成本是天文数字最要命的是模型自报的这里有漏洞如果不能闭环验证只是把误报问题从规则世界搬到了概率世界根本没解决。OpenAnt 把三种技术串成了一条闭环这套新方法叫 OpenAnt来自一个安全研究团队论文和代码都已公开。它的思路是不让模型一次吃下整个仓库而是先廉价过滤、再昂贵推理、最后真实验证。第一步砍分析面。先用静态分析把所有函数抽出来构造调用图然后从外部入口——HTTP 路由、CLI 参数、WebSocket 这些——出发做遍历只保留外部输入能触达的函数。内部工具函数、测试脚本、管理脚本全部丢掉。这一步效果惊人OpenSSL 仓库 15232 个函数压缩成 390 个值得分析的单元。8 个仓库合计 64132 个函数过滤完只剩两千多个。这一步不花一分钱 token却为后面省下海量成本。第二步让模型当攻击者。对每个候选模型被要求扮演一个能力受限的远程攻击者只能通过浏览器交互、没有服务器权限、没有管理员凭证、不能改服务器文件。在这种约束下它必须为漏洞构造完整的利用路径逐步说明哪一步可行、哪一步会被认证或输入校验拦下。这一步是过滤误报的核心。第四阶段标出的 376 个候选有 49.5% 在这里被排除——要么输入清洗阻断了攻击者控制的数据流要么身份认证这关绕不过去要么漏洞只影响攻击者自己要么被平台机制如同源策略挡住。这正是它和传统 SAST 拉开差距的地方不止判断像不像漏洞而是反复拷问到底打不打得进来。第三步沙箱里真跑。对仍然可信的候选自动生成 Dockerfile、攻击脚本、依赖配置扔进一个严格受限的沙箱执行只读文件系统、512MB 内存、单 CPU、禁止提权、120 秒超时所有产物用完即毁。跑通了、确认能复现才算数。最终结果确认 190 个漏洞144 个能被自动复现复现率 75.8%覆盖 IDOR、SSRF、路径遍历、注入等 30 多种类型。其中“输入直接驱动结果”的漏洞复现率最高——命令注入 100%、路径遍历 88.9%、认证绕过 83.3%而竞态、跨服务时序这类环境复杂的漏洞较难自动复现。全程成本 1461.25 美元平均每个仓库不到 200 美元。作者算过一笔账如果不做第一步的可达性过滤把所有函数都跑一遍要约 23700 美元——过滤把成本压了超过 96%才让“在真实仓库里跑大模型挖洞”在经济上成立。防守方也得换成同样的速度把这组数字翻译成一句话挖漏洞 写 PoC 这件原本依赖资深红队的工作正在变成持续集成里跑一遍流水线的事。而很多团队的安全自测还停留在周期性的逻辑上。一年一次渗透测试HVV 前突击一轮平时靠漏扫跑个报告交差。漏扫只告诉你“这里有个漏洞”不告诉你“这个漏洞从外面打得进来吗”。渗透测试更准但受人手和时间限制点到为止覆盖不了完整攻击链也做不到天天跑。当攻击方的找漏洞能力变成可持续、可调度、低成本的流水线防守方这种间歇性自测的节奏就被甩开了。你上次验证防线是三个月前攻击方可能每天都在用 AI 重新扫一遍你的暴露面。破局的思路其实和 OpenAnt 同源用攻击者视角持续地、自动地检验自己。业界已经有团队在这么做——把渗透从“临时项目”变成“持续运行的能力”可计划调度、自动生成报告覆盖从外网信息收集到内网横向移动的完整链条。塞讯自动化红队测试系统CyriCART做的就是这件事用自动化攻击模块持续对自己发起渗透把攻击方的自动化优势抢到防守侧。但打得进来只是问题的一半。挖到漏洞、确认能利用之后真正要回答的是另一个问题你现有的防御体系到底挡不挡得住这条攻击路径这需要对抗式验证。塞讯智能安全验证平台CyriBAS用真实 APT 攻击场景对防御体系做对抗式验证分析完整攻击过程的告警和日志定位安全产品、流程、人员各环节的失效点再给出可落地的修复建议。两者连起来是一个闭环红队持续找出攻击路径验证平台确认防线在这些路径上挡不挡得住结果再回流让下一轮测试更准。攻击方用 AI 把找漏洞做成了流水线防守方如果还靠人工、靠周期差距只会越拉越大。1461 美元、144 个漏洞、8 个真实仓库。这组数字真正的意义不是“AI 多厉害”而是攻击的成本曲线正在塌陷。当找漏洞变得这么便宜、这么快“我上个季度测过了”就不再是一个让人安心的答案。你所在的组织上一次完整验证防线是什么时候是按项目排期还是已经在持续跑了留言聊聊你们现在的做法。参考来源OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic Testing( Nahum Korda, Gadi Evron, Knostic) → https://arxiv.org/pdf/2606.19149开源代码Apache 2.0→ https://github.com/knostic/OpenAnt