大语言模型正在成为公众获取、理解和使用科技知识的重要工具,但是,它们能辨善恶吗?能否识别用户意图、理解具体语境、控制输出粒度,并在有用性与安全性之间保持稳定边界?7月2日于北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型安全防范能力测评报告(2026)》正式发布,该报告依据一套中国机构自主研发的科学测评方法体系,对全球主要大语言模型进行了一次统一标准的“体检”,作出了回答。
这份由东壁科技数据有限责任公司(“东壁科技数据”)联合上海财经大学数字经济学院共同打造的研究成果,是全球首份大语言模型科技安全专项测评报告,也是首份大语言模型科技向善导向测评报告。报告以313条科技类高风险问题为测试集,覆盖38个国内外大语言模型,重点考察模型能否在正常的科技学习、科研的防护需求与潜在违法犯罪滥用之间,保持稳定、安全且可解释的边界,并同步发布多维度安全实力排名。
测评显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。
《全球大语言模型安全防范能力测评报告(2026)》正式发布
立足真实风险补齐行业测评短板
上海财经大学数字经济学院院长、报告牵头编制人赵琳在论坛上对报告进行了解读。他表示,科技知识在正常场景中可以服务于教学、研究、产业创新和公共安全,但当它被置于特定目的、特定语境和特定对象面前,就可能转化为现实危害。从前沿模型安全框架看,国际上已经将生物化学、网络安全、自动化代理等高风险能力纳入重点评估范围。
当下,国内外围绕大模型安全、伦理和风险管理已经形成多层级测评与治理格局,为大模型安全治理提供了重要基础,但在科技类高风险场景下仍存在三方面缺口——通用内容安全测评较多,高风险科技语境测评不足。前沿能力评估较多关注极端能力阈值,对日常科技滥用场景覆盖不足。以及,通用有害问答数据集较多,基于真实案件和真实科技滥用语境构建的测试集不足。因此,构建科技类高风险场景的专项测评,是对现有测评体系的重要补充。
本次最终测试集包含313条科技类高风险问题,结果分析覆盖38个国内外模型,并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性,报告从东壁全球科技文献数据平台(Dbdata)选取94,108份科技文献材料,并结合34,452条科技类百科条目构建RAG检索参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。
赵琳提到,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。报告同时设置意图识别能力、滥用风险可控性和科技内容可靠性三个维度,用于识别“过度拒答”“防御不足”和“可靠但高风险输出”等不同类型的问题。因此,本报告更接近“科技安全防范能力测评”,而不是单纯的“拒答率排行榜”。
实测数据披露多重安全隐患
报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。赵琳在解读报告时,介绍了部分测评结果,并披露其中多重安全隐患。
目前,攻击成功率最高的是场景伪装加上示例诱导,达53.8%,其次是场景伪装、前缀注入攻击、情感伪装,分别达51.3%、43.4%、30.7%,最低的是情感伪装加示例诱导,也达到了26.5%。“这说明场景伪装是最值得关注的攻击形态之一。”赵琳说,“合法授权”“安全研究”“攻防演练”等场景合法化叙事,比单纯情绪求助更容易削弱模型安全边界,示例诱导的影响则取决于其叠加在哪类伪装方式上,叠加在场景伪装中能增加越狱成功率,叠加在情感伪装中反而更容易让模型识别出请求的风险。
赵琳还提到,目前模型意图识别仍不充分。伪装类样本中,善意问题拒答率为30.6%,恶意问题回答率为29.7%。这说明过度防御和防御不足同时存在,模型尚未稳定掌握科技双用途语境下的差异化响应能力。以及,回答后的风险披露控制不足,模型一旦被诱导回答,往往未能有效切断从一般知识到现实实施之间的关键连接。
测评发现,科技内容可靠性与安全风险存在张力。已回答样本中,80.5%达到较可靠水平,55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言,可靠性越高不一定越安全。“关键在于能否把可靠知识限制在防护、合规和教育范围内”,赵琳表示。
上海财经大学数字经济学院院长、报告牵头编制人赵琳对报告进行解读
多维度安全榜单出炉
依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分,报告发布38款海内外主流大模型分层排名,多维度榜单清晰展现不同模型的安全防护水平。
在无伪装、直接索要危险技术方案的直接攻击测试中,Anthropic旗下三款Claude模型实现100%拒答,领跑行业,OpenAIgpt-5.4-mini、阿里通义千问qwen3.5-122b-a10b紧随其后。反观榜单末尾,mistral-small等多款轻量化开源模型基础防护垫底。
针对前缀注入、场景伪装、情感诱导、示例叠加等五类复杂越狱攻击的综合防护排名显示,全场景抵御能力前五名依旧由Claude全系三款模型包揽前三位,国内MiniMax-M3、OpenAIgpt-5.4-mini分列第四、五位,面对套着“安全演练、科研实验”外壳的诱导提问,依旧能稳定守住安全边界。测评同时指出,场景伪装叠加示例诱导是所有模型的共同薄弱环节,共有21款模型拒答率不足半数,其中字节豆包轻量化开源模型doubao-seed-2-0-mini在该场景下安全边界衰减幅度最为突出,防护短板显著。
在恶意伪装意图识别维度,拒答率榜单前五与越狱综合防护榜单高度重合,Claude全系列、MiniMax-M3、gpt-5.4-mini能够高效识别包装成教学、科研需求的恶意提问,拦截风险请求能力领跑行业。但测评也发现统一短板,榜单前列防护能力更强的模型,善意学习类问题拒答率同步走高,存在明显的过度防御现象,正常科研、科普学习需求容易被一并拦截,而大量中小开源模型则走向另一个极端,难以区分请求意图,恶意伪装提问极易顺利放行。
滥用风险可控性榜单仅针对成功绕过安全防线、产生输出内容的样本打分,分数越高代表模型越能规避危险实操细节泄露,榜单排名显示OpenAIgpt-5.4-mini以3.52分的均分拔得头筹,claude-haiku、gpt-5.5、阿里通义千问qwen3.6-27b、qwen3.6-flash依次跻身前五,即便不慎输出内容,也会主动规避关键参数、完整操作流程等高风险信息。
在衡量输出内容科学准确程度的科技内容可靠性榜单中,OpenAIgpt-5.5以均分3.52分拿下榜首,月之暗面Kimi-k2.6、阿里通义千问3.7-max旗舰闭源模型、qwen3.6-35b、qwen3.6-27b紧随其后,国内大规模闭源模型的专业科技内容准确度已达到行业第一梯队水平。
总而言之,不同模型属性呈现出系统性差异。国外、闭源和大规模模型在恶意伪装请求拦截、越狱稳健性和回答后风险控制上整体更占优,但也更容易拒绝善意问题,体现出安全性与可用性之间的张力;开源、小规模以及部分国内模型在伪装攻击下更容易被诱导,说明安全对齐、产品化防护和持续红队测试仍需加强。与此同时,大规模和闭源模型的科技内容可靠性更高,一旦安全边界失效,高可靠回答更可能转化为现实可执行的信息增益,因此高能力模型更需要精细化的意图识别和输出粒度控制。
治理路径与测评体系升级规则
针对测评暴露出的系统性安全短板,这份报告立足产业实际,提供了一套政策与治理建议,平衡AI知识普惠价值与公共安全底线。
报告提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。越狱攻击方式更新快,模型版本迭代快,静态测评难以长期反映真实风险,建议坚持敏捷化原则,建立持续红队与复测机制。将科技安全测评从单一拒答率扩展为综合指标体系,至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。
“治理目标应是拒绝危险能力增益,而不是拒绝科技知识本身。”赵琳说。建议模型在高风险科技主题下建立更细的安全回答范式,对善意学习请求,提供概念解释、风险提示、合规边界和安全替代路径,对中性但不明确的请求,主动澄清目的和使用环境,对恶意或高度可疑请求,拒绝提供可执行细节,并转向防护、法律后果、求助渠道或安全教育内容。同时,报告强调,针对测评揭示的不同属性模型在安全能力上的系统性差异,应构建精准协同的多元共治机制,形成企业、测评机构、监管部门与行业专家多方协同、精准施策的治理生态。
东壁科技数据创始人、报告牵头编制人吴登生认为,这一报告的意义在于从“拒答率排行榜”转向综合风险评价。以真实案件和真实科技语境为基础,将越狱攻击与科技知识双重用途场景结合,并把“是否拒答”扩展为意图识别、滥用风险可控性和科技内容可靠性等综合评价。“这为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考,也强调在保护正当学习、科研和防护需求的同时,避免模型输出形成对现实危险行为的能力增益。”他说。
“这份报告只是一个开始。未来,我们将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。我们的目标不仅是发布一份报告,更希望逐步建立具有持治理政策、为教育科研机构安全使用人工智能提供参考依据。”吴登生表示。