数据·模型·应用三重防线:金融大模型智能体的安全挑战与破局之道

发布日期:2025-12-05 点击次数:172

来源:金融电子化

文/农业银行烟台分行 麻岩

2024年11月,中国人民银行等七部门联合印发《推动数字金融高质量发展行动方案》,强调数字金融对建设金融强国、巩固和拓展我国数字经济优势具有重要意义;数字金融借助大数据、人工智能、区块链、云计算等前沿技术,全方位重塑传统金融业务模式的同时,应时刻牢记防范化解金融风险,是金融工作的永恒主题。目前大模型应用还存在一些潜在风险,基于大语言模型的行业智能体在赋能金融行业发展的同时,也不可避免的面临诸多现实挑战;只有坚持问题导向、结果导向,充分认识风险、预判风险、防范风险,在抢抓人工智能发展的历史性机遇中,把握风险走向,才能积极谋求战略主动性。

数据层安全:数据投毒风险场景与防控策略

智能体通过感知、记忆、调用、推理与行动五大模块实现自主任务执行,大语言模型(Large Language Model,LLM)提供通用语言理解和生成能力,实现各模块协同工作,是智能体的核心组件。LLM在预训练阶段的学习使LLM能够理解并生成模仿人类语言的表达,同时记忆大量知识及数据,一方面,在这个过程中LLM无可避免的学习并记忆训练语料中的毒化行为及偏见,这些数据可能会以某种方式、在特定情况下被激活并在用户交互过程中输出;另一方面,毒化数据是训练语料的一部分,LLM需要训练区分毒化数据的能力,若毒化数据缺失,将导致某类知识的缺乏,最终影响LLM的训练效果。因此毒化数据并不等同有害数据,但在发生不可控行为时,基于LLM框架的行业智能体将埋下数据安全风险。

1. 认识风险。数据投毒旨在通过污染训练数据集间接篡改模型参数,使模型在遇到特定触发条件时产生预设的恶意输出,从而隐蔽地破坏模型的可靠性和完整性;除对抗性攻击通过微小且有针对性的修改测试语料外,常见无差别投毒、目标攻击、后门攻击三种方式。无差别投毒,如“targeted classification(目标分类攻击)”⑴目前来看是一种相对简单的攻击策略,攻击者不改变特征值而是错误地标记训练数据集的其中一部分样本,从而降低机器学习模型性能的准确性;再如“The optimaltraining-set attack(优化训练集攻击)”⑵攻击者可以控制大量训练数据,通过微调每个数据样本以保持类别标签不变,这一概念指出操纵整个训练数据集来任意定义单个特征对训练模型预测能力的重要性。目标攻击表现为针对性的修改特定目标样本(与对抗性攻击不同的是,不修改测试数据集)使其被误分类,形成双层中毒或梯度基础攻击。后门攻击则通过后门触发器使测试样本被错误分类,与此同时不影响正常样本分类,这类攻击常常涉及隐形触发器和某种固定模式的融合。

2. 预判风险。智能体在赋能金融行业发展的过程中,数据投毒攻击可能表现为通过篡改历史行情、财报或交易日志,使模型在检测到某一代码或财务指标阈值时,自动发出错误的交易指令或风险预警,甚至协同多智能体执行操纵性交易,进而引发规模性资产损失或市场波动。被投毒的数据模型在日常使用中可能与正常模型无异,在触发特定条件时就会在生成过程中埋入安全漏洞,投毒攻击因其隐蔽性和持续性,对模型可靠性和完整性造成严重威胁。同时应该看到,在金融监管不断强化、全面的今天,相较于主观恶意的数据投毒攻击,非主观恶意的数据标注误操作,也对金融行业数据安全形成新的考验。

3. 防范风险。数据层安全的建设,对金融机构提出长期的考验,这里是三点思考和建议:一是锚定源头,靶向施策,数据语料经过自动筛选与人工抽检,数据标签经过一致性校验,双重质检确保可控样本进入训练流程。二是全程跟踪,分类管理,一方面持续监控训练阶段LLM行为与数据梯度分布,另一方面在出现异常波动或告警时,果断叫停训练以便精准识别;同时强化技术,内外兼修;通过差分隐私技术添加可控噪声来实现隐私保护,通过数字水印技术实现内容完整性验证、篡改检测及定位。三是底线思维,稳妥推进,健全完善数据训练全流程工作机制,着重强调应急处置工作,通过技术工具实现“一键恢复”或快速回滚。数据安全是网络安全的基础,应重视积累,梯次推进,不断夯实数据安全框架。

模型层安全:越狱攻击风险解析与防护

LLM面临的网络攻击中,越狱攻击对模型层的可靠性和安全性构成了严重的威胁,攻击旨在绕过模型的安全限制,使其无限生成有害、偏见或不道德的内容;攻击者通过精心设计的提示指令或对抗示例,使模型在“帮助用户”与“执行安全策略”之间产生冲突,直到输出忽略自身安全规则的内容。赋能金融行业的智能体在运行过程中,越狱攻击可能使模型绕过风控审核,生成未经授权的交易脚本、泄露敏感账户信息或提供误导性投资建议,从而带来合规风险、法律责任和经济损失。按照其演化过程来看,主要表现为人工设计、自动生成、自动优化、模型操控四种形式。

1. 认识风险。在大型语言模型(LLM)的应用过程中,越狱攻击已成为一种不可忽视的安全威胁,其手段多样且不断演进,对模型的安全防护机制提出了严峻挑战。当前,越狱攻击主要可分为以下四个层面的风险类型。

一是人工设计指令:利用角色扮演、固定上下文、情景设定等提示工程技术诱导模型越狱。角色扮演攻击通过模拟特定身份引导模型输出;固定上下文攻击以有害问题与模型肯定回复作示例,减少拒答;情景设定攻击构建逻辑步骤,牵引模型沿预设路径生成内容。

二是自动生成指令:含嵌套情境、加密输入、多语言指令。嵌套情境类似人工攻击,先插入乱码、改写单词降敏,再借故事续写、表格填充嵌入虚构场景;加密输入将自然语言编码为非自然语言,利用模型解码能力规避安全机制,若预训练接触过非自然或低资源语言,虽具备转换能力,但因安全训练未覆盖加密空间,防护易突破;多语言指令通过多语言输入增难度,国际业务常见,LLM虽预训练多语言表现良好,但安全微调时语料比例失衡,因语义空间不匹配致安全训练覆盖不足,考验智能体可靠性与用户专业能力。

三是自动优化指令:结合自优化机制迭代攻击,含梯度优化、提示越狱、可变上下文。梯度优化基于白盒LLM梯度信息,拼接对抗性token后缀迭代指令,通过最小化损失函数实现攻击;提示越狱将LLM作为提示优化器,基于前轮提示与回复细化候选提示,过程可解释并展示优化步骤;可变上下文自动选择上下文示例,通过拒答/非拒答概率分布计算趋势,选取良性样本放大肯定反应,依托概率特性提升触发概率。

四是模型操控:直接调整模型内部参数实现越狱,不修改提示,含概率操控与微调攻击。概率操控修改解码策略影响目标函数,操纵输出分布增加有害输出概率,绕过安全约束;微调攻击调整模型参数或引入特定数据诱导误导性响应,揭示数据灾难性遗忘问题,暴露模型脆弱性。

图1 LLM越狱攻击的四个主要风险类型及其子类型

2. 预判风险。现下攻击者越来越倾向于采用自动化技术提高攻击效率和成功率,越狱技术的发展使其分布呈现多样性和系统性的趋势。多样性方面,数据毒化攻击在数据层通过污染训练数据来破坏模型的准确性和安全性;后门攻击在算法层通过在模型中植入后门使模型遇到特定触发条件时触发恶意行为。系统性方面,越狱攻击则可能通过LLM硬件环境、软件部署或外部工具等渠道进行。例如通过对硬件环境的旁路攻击(Side Channel Attack,SCA)在不直接接触模型的情况下,窃取涉密信息或影响模型行为;通过模型部署过程中的软件开发工具,向LLM授权执行代码的能力,LLM则可能触发远程代码执行漏洞。

3. 防范风险。LLM模型的服务属性与价值观的不匹配特性使风险防范工作面临更系统的考验,结合金融行业特点,形成四点思考和建议。一是聚焦重点,在运行过程中,对输入指令实施分级清洗,通过正则过滤、语义检测或对抗样本测试治理等方法,多点齐发,从源头拒绝或改写可疑指令。二是严密跟踪,运行过程中对每次生成结果均进行异常检测,遇到未知触发即进入人工复核流程。三是强化监督,以台账促落实,实施速率限制与多因素验证。对同一用户/IP短时间频发未知触发,强制登出并生成安全日志入台账,按责定期排查。四是立足实践,定期红蓝对抗,模拟最新攻击并更新防御规则,如“自动红队”方法:通过模型与攻击指令迭代交互生成对抗样本,同步优化双方,实现攻击能力与模型安全双提升。

应用层安全:大模型幻觉、责任边界与协同破局

智能体在赋能金融行业发展的同时,对应用层的冲击也带来了机遇和考验。一是大模型幻觉,智能体被广泛应用于检索增强、知识问答等场景时,LLM幻觉使用户难以判断获取的信息是否可靠,若未能有效识别又难在出现问题时有合理的申诉渠道,可能让用户对智能体的可靠性和易用性产生质疑。二是责任边界划分,当智能体引发的风险给用户带来损失时,若责任判定相应的制度规范边界模糊,将进一步破坏信任,同时,责任边界的划分可能无形中对科研人员笼罩上道德伦理的思想压力和责任包袱,这将导致探索攀登过程中的思想禁锢。三是技能依赖和职业担忧,用户过度信任智能体的输出,放弃独立的批判性思考可能将形成专业技能依赖;相应的,职业“被替代”的担忧也随之而来。

鉴于此,面对智能体对应用层带来的考验,形成几点思考和建议。一是以人为本,构建人机协同的技术保障,建立便捷的投诉与申诉渠道,譬如对话视窗设计预留“触发人工”功能,同时全面记录和追溯智能体的关键操作、异常行为与数据访问历史,确保透明性与可解释性措施到位。二是顶层架构与底线思维,一方面完善制度架构,制定实施规范以及容错、纠错机制,构建用户信任保障;另一方面守住底线不动摇,在规章制度范围内,充分发挥主观能动性,合法合规边界内,用科学决策和创造性应对探索自由。三是深度学习,跨界融科,将科技创新赋能专业技术,提升各类金融场景防范风险能力,创新智能金融产品和服务。四是配合默契,携手共进,智能体安全是一个长尾问题,金融行业的风险应对不仅需要技术手段注入新动能,更需要传统专业技能和前沿智能技术的“双向奔赴”,科研人员担当科技自立自强的排头兵同时,应用层用户筑牢金融智能体时代最强大的风险防火墙,同频共振、握指成拳。

图2 智能体在金融行业应用中面临的核心挑战以及系统性的解决方案

总结与展望

智能体赋能金融行业的实践,需要持之以恒地努力,在抢抓人工智能发展的历史性机遇中稳扎稳打、步步为营、久久为功。

⑴ Juuti M,Szyller S,Marchal S,et al.

PRADA:Protecting against DNN model stealing attacks[C]

//Proc of IEEE European Symp on Security and Privacy.Piscataway,NJ:IEEE,2019:512–527

⑵ Mei Shike,Zhu Xiaojin.

Using machine teaching to identify optimal training-set attacks on machine learners[C]

//Proc of AAAI Conf on Artificial Intelligence.Palo Alto,CA:AAAI,2015,29(1):2871−2877

热点资讯

推荐资讯