
Cloudflare官宣屏蔽AI爬虫新规7月1日Cloudflare发了一篇标题为「你的网站你的规则」的博客。不过内容可不温和从9月15日起所有使用Cloudflare的网站默认屏蔽混合用途的AI爬虫。只要页面上有广告AI的训练爬虫和Agent爬虫就无法进入除非手动去后台打开。这里逻辑翻转了以前是「默认允许你可以选择屏蔽」现在是「默认屏蔽你可以选择允许」。这可是互联网基础设施层首次对AI数据获取方式进行系统性「立法」。做出此决定的背景是一个标志性事件互联网上的bot流量已超过人类流量。Cloudflare CEO Matthew Prince称这个里程碑比预期来得早原本预计要到2027年才会发生。也就是说如今打开的大多数网页主要「看」它们的是机器。而规范来自AI的流量既可能决定所有网站的未来也关乎网络守门人Cloudflare自身的发展轨迹。最严厉的「爬虫政策」据官方介绍Cloudflare把AI爬虫拆成了三类。第一类是「Search」即给搜索服务建索引的传统爬虫像Google做了二十多年的那种。第二类是「Agent」是实时代用户访问网页的AI代理比如让ChatGPT查信息、填表单背后就有Agent爬虫帮忙。第三类是「Training」是大规模抓取内容用于模型训练的爬虫。这三类分开标注网站主能分别对每类设置「允许」或「屏蔽」。想让搜索引擎找到网站可以。想让AI代理帮用户查信息也行。但不想让AI公司白用内容训练模型那就单独关掉Training。这个分类可直戳Google的痛点。Google的Googlebot是典型的「混合爬虫」它既为Google搜索建索引也为Google的AI功能如AI Overviews采集数据。Google虽提供了叫Google - Extended的工具允许网站选退AI训练但核心爬虫Googlebot仍会为搜索引擎内置的AI功能收集数据。搜索和AI的数据需求在Google的架构里并未真正分开。这意味着什么呢Cloudflare的数据显示因为网站想在Google搜索中可见就得让Googlebot进来而它进来后AI训练的数据也就被拿走了。Google因此获得了约两倍于其他AI公司的网页内容访问量。另外Cloudflare还加了「最严规则优先」原则。如果一个爬虫同时执行搜索和训练功能所有适用规则会同时生效按最严格的来。也就是说只要选择屏蔽Training爬虫Googlebot、Applebot、BingBot等混合爬虫都会被屏蔽。这是在砍「捆绑」即想被搜索到就得接受被AI训练。Cloudflare认为这种捆绑不公平必须拆开。一组数据能说明旧「社会契约」崩坏程度。Cloudflare公布的各家AI公司爬取与回流比显示Google约是14:1即每爬取14个页面回流1次点击OpenAI是1,700:1Anthropic是73,000:1。搜索引擎时代是「我爬你的内容你得到流量」在AI时代这笔账算不过来了。从「保安」到「收银员」要是Cloudflare只是帮网站主挡住AI爬虫那意义就局限于「防御」但它显然不满足于此。去年7月Cloudflare推出「Pay Per Crawl」按爬取次数向AI公司收费。今年又将模式升级为「Pay Per Use」。区别在于不再是爬虫来一次收一次钱而是内容在AI系统中真正产生价值用于生成回答、出现在AI搜索结果里用户才能收钱。从「按次收费」到「按价值收费」这转变野心不小意味着Cloudflare想建立的不是墙而是市场。目前初始合作伙伴是两家AI搜索公司Ceramic.ai和You.com。出版商加入后内容出现在Ceramic的AI搜索结果中或被You.com的Agent访问时会收到付款。大出版商纷纷支持Condé Nast的CEO称这是「游戏规则的改变」Reddit的联合创始人说「整个生态系统都会受益」。不过有个不太完美的细节。今年3月Cloudflare自己发布了一个爬虫API输入URL能一次性抓取整个网站返回HTML、Markdown或结构化JSON。这让一些出版商不安那个一直帮忙挡爬虫的公司自己却造了一个爬虫。更尴尬的是有出版商尝试屏蔽Cloudflare自己的爬虫时设置不生效。虽然后来Cloudflare修复了问题但网上评论传开了「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」Cloudflare解释称其爬虫是「合规爬虫」会尊重robots.txt遵守自己的AI Crawl Control规则。若站长选择屏蔽AI爬虫Cloudflare自己的爬虫也会被挡在门外。用一位开发者的话说这是「两边下注所以永远赢」的策略。这就引出一个根本问题Cloudflare到底是中立的基础设施裁判还是新型中间商答案可能是后者。它同时扮演着规则制定者定义三类爬虫、规则执行者在基础设施层拦截爬虫和市场参与者运营自己的爬虫和内容交易平台三个角色。这不是说它做的事没价值把AI爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架是个进步。但把它当成内容创作者的「救世主」就太天真了。它构建的是以自己为枢纽的「AI内容税收站」。普通人能分到蛋糕吗这或许是整件事中最让人冷静的部分。站出来支持Cloudflare的如Condé Nast、Dotdash Meredith、Reddit等都是大型出版商和平台。它们有内容规模、法务团队和谈判筹码即便没有Cloudflare也能和AI公司签许可协议事实上过去一年全球已签超50份内容许可大单。对它们来说Cloudflare只是多了个工具并非唯一出路。但个人博主、在WordPress上写技术教程的独立开发者、用公众号写深度分析的自媒体人呢理论上Cloudflare的基础设施能让小内容主不用逐一跟每家AI公司谈判就能设定权限和获得补偿。但关键是「理论上」三个字。「Pay Per Use」到现在只有Ceramic.ai和You.com两个合作伙伴都是小玩家。OpenAI、Google、Anthropic这些大规模消耗内容的公司都没参与。而且还有现实矛盾对小创作者来说曝光是最稀缺的资源屏蔽AI爬虫可能减少被发现的机会。大媒体屏蔽爬虫Google搜索还是会收录小博客屏蔽爬虫可能就消失在互联网噪音里了。有组数据更让人清醒AI聊天机器人带来的引荐流量比传统搜索少约96%用户在AI回答中点击引用来源的概率只有约1%出版商过去一年因AI搜索功能损失了20% - 90%不等的流量和收入。一项研究发现Google的AI Overviews让外链点击量下降了约40%。这意味着即便「Pay Per Use」全面铺开付费规模可能也远不足以弥补出版商已损失的广告收入。这不是变局更像是止损而且未必能止住。Cloudflare报告称超50%的AI爬虫流量花在重复抓取未更新的页面上。解决这种低效有价值但解决效率问题和让创作者真正赚钱是两码事。「菩萨」也有自己的庙Cloudflare向来被用户赞为「赛博菩萨」因为它确实做了有价值的事把AI时代的数据掠夺从暗处拉到明处逼AI公司说清「要数据干什么」。在bot流量超人类流量的互联网上有人站出来喊「规矩不能这么没有」值得肯定。但「菩萨」也有自己的考量。Cloudflare管理着全球约20%的网络流量这数字说大不大。另外80%的网站不在其保护范围内AI公司完全可以把数据采集重心转向非Cloudflare站点。Google和Apple的爬虫已提供形式上的选退工具可能借此绕过Cloudflare的拦截。英国竞争与市场管理局CMA正从监管角度向Google施压要求其让出版商在不影响搜索排名的前提下退出AI训练。一个基础设施公司的政策不会让内容权益的重新分配尘埃落定。但它揭示了深层趋势互联网的「收费站」正从搜索引擎转移到基础设施层。过去二十年Google决定谁能被看见现在Cloudflare想在更底层拦一道要求过路者说清目的按规矩来。收费站变了但收费的人未必变了。