转载学习:大模型应用防火墙
需求分析
随着DeepSeek成为当前最热的现象级产品,中国企业级大模型市场将迎来爆发。以DeepSeek为核心的大模型的应用场景将不断拓展,深入到金融、医疗、教育、政务、制造业等各行各业。为应对大模型出现的安全风险,构建大模型安全防护体现在国家政策、技术群构建多方面进行布局。
在国家政策层面,我国已将人工智能的发展定位为国家战略。2024 年政府工作报告明确提出深化大数据、人工智能等技术的研发与应用,且国家相关部门陆续发布了一系列规范文件。与知识版权、数据隐私等大模型相关的法律法规和国家标准也亟待逐步建立,以共同形成健全完备的大模型安全标准体系。
大模型应用防火墙是专注于为企业级大模型服务提供防护能力的专属安全产品,聚焦在大模型业务场景面临的全新内容级、应用级威胁,以“大模型技术”应对“大模型风险”。
面向大模型实时推理业务场景,通过在线部署&实时拦截模式,协助用户构建多维度安全防护机制,对智能体或大模型推理服务的交互内容进行深度安全检测与防护
功能特点
-
提示词注入攻击防护:
基于以大模型防护技术理念,创新性的采用了多引擎检测技术架构,包括显式高速内容检测引擎、多级Transformer语义检测引擎、安星智能体深度逻辑对抗引擎等,基于可控的算力消耗,实现了高性能、低时延的自然语言提示词注入攻击防护。
-
过度代理拦截:
基于自然语言输入理解其要调用的工具及指令动作,并与安全管理员设置的工具调用权限或范围进行对比,从而拦截各类越权调用、非法提示词、恶意SQL操作等。
-
算力拒绝服务攻击防护:
降低各类有意或无意且不具备业务价值的提示词输入,从而节约基础算力投资。
-
敏感信息防泄漏:
基于内置的高性能内容安全引擎,通过对输入输出数据的全面解析,可有效识别、封堵、脱敏各类不安全输出或敏感信息输出。
-
系统提示词工程防泄露:
基于显式高速内容检测引擎及多级Transformer语义检测引擎,可从自然语言角度理解并解析不应输出的系统提示词。在检测到敏感的系统提示词后,将进行灵活的内容脱敏、替换或封堵动作。
-
内容安全管控:
通过领先的自然语义检测引擎,不但能够基于关键字检测和拦截各类非法提问,还能理解输入的上下文逻辑、语气、情感等,从而有效规避各类内容安全风险,确保业务应用合法合规。
-
应用安全防护:
业界领先的应用层攻击防护能力,可保护大模型业务应用免受各种应用层攻击,防护暴露面组件漏洞导致的外部攻击。
检测敏感数据:通过预置关键词库或者训练识别模型
检测到后的处理措施:内容脱敏、替换或者中断输出
设计框架
采用单臂\桥模式,可部署在大模型API前端(大模型DeepSeek、千问等应用场景),保护各类大模型安全。
大模型安全防火墙处于:LLM 与 应用侧(智能体、向量库、用户推理等)之间