观点 | 隐私计算助力金融数据有序共享
文/中国银联金融科技研究院 高鹏飞 周雍恺
中国银联数据隐私保护创新技术研究组
人工智能(AI)的概念自20世纪50年代诞生以来,已经历多次技术革新和应用浪潮。从早期的逻辑符号推理到专家系统,再到机器学习和深度学习的突破,AI在各行业都得到了长足的探索和应用。近年来,随着计算能力的显著提升和ChatGPT的横空出世,AI领域迎来了一个新的里程碑——大模型AI。相比于大模型之前的AI (本文称之为传统AI),大模型AI的出现开启了创造性和适应性智能,两者都将为数字经济持续注入数字化能力。
本文将以中国银联与主要金融机构的产业实践,从传统AI与大模型AI分别展开,展示“AI+隐私计算”助力金融数据要素有序流动的实践与探索,并介绍当前隐私计算互联互通的最新进展,以及未来与AI生态深度融合的展望。
人工智能、隐私计算与金融数据要素共享流通
现代大参数量AI的高效运作往往依赖于海量优质数据的支撑,以便AI系统能够从中学习模型并准确预测和决策。这些数据不仅需要具备足够的体量,而且要具有多样性和质量,尤其是在商业领域,训练一个优质模型仅仅依靠一家企业的数据是不够的,需要数据能够跨行业、跨机构融合。
数据作为信息载体,蕴含个人隐私、商业机密,甚至事关国家安全。2020年以来,国家陆续出台了一系列法律法规,数据安全监管趋严,数据也上升为关键生产要素。解决多方数据融合需求和数据安全、隐私保护的矛盾,需要相关技术予以支撑。隐私计算基于“原始数据不出域,可算不可见”的特性,能够在保障数据隐私安全的情况下实现数据价值交换,近年来受到业界重点关注,发展较快。AI结合隐私计算技术无疑可以助力数据在安全合规的前提下实现更大范围的融合,推动各行业数字化水平的进一步提升。
金融业是数据密集型和科技驱动型行业,现代金融业务的核心就是信息处理与风险运营。智能化的数据处理及数据要素的流动对金融业而言好比大脑与血液。因此,以“AI+隐私计算”驱动的跨域数据智能成为金融机构数字化转型的必选项。越来越多金融机构间通过隐私计算技术推进了多元化跨域多方数据融合,并结合各类人工智能技术在信贷风控、精准营销、金融反诈等金融数据场景上进行模型训练与深度应用,同步也在更多的业务领域进行前沿探索。
“传统AI+隐私计算”在金融风控与营销领域的应用
传统AI与隐私计算的融合日趋成熟,在大幅提升金融业务的智能化水平的同时,有效保障了金融数据的安全与隐私。隐私计算与AI结合的核心技术主要包括:联邦学习、多方安全计算(MPC)、可信执行环境(TEE)等。这些技术使得多方可以在不泄露敏感信息与原始数据的前提下进行联合建模与联合预测。
目前,中国银联已经在支付、小微信贷风控、精准营销等模型场景中通过“传统AI+隐私计算”为用户敏感信息提供强有力的安全保障,助力金融数据的跨域跨主体流通,发挥数据要素价值。
1.安全生物特征支付。数字经济时代,用户生物特征信息的应用面临越来越高的合规与数据安全风险。基于生物特征信息进行用户身份识别的技术,在金融、安防、电子商务等诸多场景实现了广泛应用。一般通过客户端采集生物特征信息,将用户的明文数据传输到云上服务端进行特征值的提取和验证。对于用户而言,生物特征信息需明文传送至云端,面临个人信息泄露风险;对于金融机构而言,保留用户生物特征信息也需要承担数据泄露的风险。
在金融支付场景中,更需要平衡业务需求与个人信息保护之间的关系。在人脸特征识别的支付场景中,为保障数据安全,金融机构收集的人脸图片或特征信息不能完整存储于一方,需要在多方协同下完成身份验证与识别。为满足此应用需要,形成了以下两种技术方案。
展开全文
(1)MPC方案。人脸识别支付是一种利用人工智能技术,特别是神经网络,来识别个体面部特征并进行身份验证的支付方式。系统通过卷积神经网络(CNN)从输入的图像中自动提取出人脸的深层特征,将图像数据转换为低维度的特征向量,通过与已存储的用户面部特征相匹配,从而完成支付过程中的身份验证。
在MPC方案中,通过MPC秘密分享的方式将生物特征随机切分成碎片存储至两个独立的实体,任一参与方都无法恢复完整的生物特征,降低了泄露风险。同时,基于MPC进行人脸图像特征提取和特征比对计算,确保生物特征数据的安全和计算结果的正确性、完整性。在实用性方面,采用明密文混合运算优化深度神经网络的离线特征提取,采用秘密分享、同态加密混合计算优化1:N特征比对在线处理。在不改变用户生物特征识别处理流程的基础上,有效提升MPC安全生物特征处理效率,满足人脸识别支付场景的生产可用要求(如图1所示)。
图1 基于多方安全计算的人脸识别框架
该项目于2021年4月入箱人民银行上海金融科技创新监管试点第二批应用试点,依托基于隐私计算技术的数据要素安全流通基础设施,完成银联与某商业银行双边网络的多方安全计算系统部署。2023年12月由上海市金融科技创新监管工具实施工作组宣布完成出箱。
项目综合运用了隐私计算MPC技术,深度结合人脸识别场景,为个人信息保护法等法律法规中对于用户生物特征(人脸)信息的安全合规使用要求提供了解决方案。在用户敏感信息存储方面,提出了生物特征分散存储模式。为确保用户生物特征(人脸)信息的合规使用,将用户人脸特征信息经处理后形成计算因子,分散存储在多个机构,即使单个机构的计算因子泄露,也无法恢复完整的用户人脸信息。同时,单个机构保存的计算因子无法独立完成交易验证过程。
(2)TEE方案。基于可信执行环境提供的安全隔离环境、安全传输方式和应用访问控制能力实现人脸识别服务。其中,用户侧在TEE环境完成人脸信息的安全采集;机构侧在TEE环境完成人脸信息的密态处理;用户侧到机构侧数据全部为加密状态传输。针对人脸敏感信息的计算处理过程均在可信执行环境完成,机构内外部人员均无法获取到明文信息,加强了隐私数据的安全保护。
2.小微助贷联合建模。某商业银行在开展小微企业信贷时,缺乏企业经营状况等有效数据维度支撑,难以支撑银行小微助贷业务有效开展,导致小微企业融资难、融资贵。在此背景下,银联与商业银行围绕“微业贷”业务开展小微信贷风控合作。考虑到国家数据安全相关法律法规要求,本案例通过联合建模服务实现银行和银联双方数据在业务侧的联合建模,银联作为数据提供方,银行作为数据需求方。同时,为提高模型效果及稳定性,对模型进行迭代更新。
(1)基于纵向联邦学习技术的解决方案。利用服务底座的纵向联邦学习功能及数据撮合功能开展联合建模工作(如图2所示)。
图2 小微企业信贷评估模型框架
(2)项目合作过程主要包括四个步骤。一是数据和平台接入。银联侧和银行侧分别部署隐私计算平台节点,双方开通网络互通策略,实现平台的互通。同时,双方节点与本地数据库打通。二是联合建模特征构建。双方根据共有用户及其所能获取的相关数据特征维度,进行合理切分,制定特征体系。商业银行侧抽取小微企业的信贷违约记录作为标签;银联侧融合多源数据,构建以支付交易数据为核心的小微企业风险评估体系,包括企业、企业主经营、消费等多维度的数据特征及宏观经济指标。三是联合建模。采用纵向逻辑回归模型,结合特征体系作多轮计算优化,实现双方的联邦建模。四是模型效果验证。从ROC曲线所围区域面积来看,联合建模的曲线相较于自有数据建模更为饱满,相应的AUC值提升了10多个百分点,超出行方预期。商业银行在实际应用中目标客户授信率与传统方式相比平均提高了5个百分点,表明双方数据通过联合建模融合能够显著提升模型的性能表现。
3.精准营销建模。商业银行的精准营销、数字化运营、智慧风控都依赖于大数据,但随着行内自有数据应用天花板的显现,迫切需要引入外部数据助力业务数字化转型发展。为此,商业银行积极推动与银行卡机构开展数据合作。考虑到国家数据安全相关法律法规要求,本案例采用联邦学习框架,实现商业银行和银联双方数据在业务侧的联合建模。
本案例基于联邦学习技术的建模方案,通过服务底座的联合建模完成双方数据合作。其中,商业银行作为数据应用方,提出业务需求及建模方案,并准备参与联合建模的正负样本数据。银联作为数据提供方和平台方,一方面参与联合建模方案设计,并根据业务方需求和建模方案,完成自身参与建模的数据特征处理,并形成参与建模的样本数据。另一方面提供平台联合建模服务。
联合建模结果表明,通过引入银联的数据,商业银行高价值客户营销模型效果提升明显,KS指标提升64%。结合商业银行行内客户画像系统,显著提升了用户营销的精准度和成功率。
“大模型AI+隐私计算”的研究探索
人工智能大模型的安全性涉及多个方面,例如模型投毒,恶意参与方通过操纵或篡改输入数据影响模型行为。又如大模型知识产权保护问题,大模型存在被抄袭或盗用的风险,一方面,某些企业可能会通过逆向工程等手段获取其他公司的大模型结构和参数,并在此基础上进行修改和使用。另一方面,一些大模型是基于开源技术开发的,开源协议通常规定了使用者的权利和义务,如果使用者违反协议,对开源模型进行不当的修改、分发或商业利用,可能引发知识产权纠纷。
此外,在大模型训练和推理阶段同样存在各类安全风险。在训练阶段,训练数据中可能包含大量的个人信息、商业机密等敏感数据。如果数据存储、传输或使用过程中的安全措施不到位,可能导致敏感信息泄露。
隐私计算技术通过联邦学习、可信执行环境及模型切片、端云协同、差分隐私、提示工程保护、隐私微调、多方安全计算等方法,起到了保障大模型训练与推理等阶段的数据安全隐私、平衡计算资源与效率、促进数据要素流通的作用。目前,业界已有研究通过可信执行环境和模型切分实现大模型安全训练,模型拆分可以提升联邦模式下模型参数在通信信道传输的效率与机密性,而可信执行环境可以保障训练过程的机密性并防止训练数据泄露;基于多方安全计算协议的“客户端—服务器”模式下的大模型协同训练可以保障数据隐私,同时,利用模型蒸馏方式保护了原始大模型内容隐私;差分隐私算法利用距离范式将原始输入文本隐私化,并且能够防范模型梯度逆推攻击。
银联提出了一种保护隐私与权益的大模型协作训练与推理方案,旨在让金融大模型在定制化训练过程中实现“模型可用不可见、数据安全不出域”。该方案基于Adapter Tuning的大模型微调技术,利用模型拆分和Adapter层密态计算对训练数据进行保护。同时,模型参数对数据持有者不可知。在训练与推理过程中,模型持有者的充足计算资源可以得到充分利用。
未来,在数据分析与智能决策、风险评估与信贷审批、智能投顾与财富管理、反欺诈与风险管理、客户画像与精准营销、供应链金融与中小企业融资等多个场景中,隐私计算与AI大模型结合的技术方案都将展现出巨大的应用潜力。
隐私计算互联互通助力数据要素规模化有序流通
由上述应用案例可以看出,隐私计算与AI在金融领域的结合,正在加快推动金融服务向数字化、智能化方向发展。通过隐私计算,不同机构可以在保护数据隐私的同时更好地共享数据价值,加强跨机构和跨行业间合作信任,促进数据要素的规模化流通和应用,切实推动数据要素市场化。结合人工智能,隐私计算将得以更为高效地处理和分析加密数据,提供更精准的数据分析结果,从而提高金融数据服务的使用规模、质量和效率。
然而,隐私计算平台之间的互联互通问题成为了制约数据要素规模化有序流通的瓶颈。由于隐私计算技术实现复杂、技术流派多,没有一种技术能完全满足各种业务需求。不同金融机构、技术厂商采用不同的系统架构和技术框架、用法不一,各隐私计算平台间难以互联互通。即使同一机构,在实现同样场景功能时,若合作方不同,也要部署不同的平台,多方数据融合应用难以协调。这种情况不仅带来资源成本、学习成本、协调成本和运营成本的高企,还放大了系统安全风险,对隐私计算技术的应用造成阻碍,掣肘数据要素的有序流通。基于此,消除隐私计算产品间的技术壁垒,实现跨机构、跨平台隐私计算技术的规模化互联互通,以促进数据要素流通、激发数据价值潜能,势在必行。
在北京金融科技产业联盟数据专委会组织协调下,中国银联自2022年起联合商业银行、互联网机构、金融科技公司、检测机构、科研院所等50余家单位,共同开展金融业隐私计算互联互通平台研究及应用工作。历经两年多的联合研究攻关,现已取得突破性进展,并入选“2023金融信息化10件大事”,相关工作还得到了通信、互联网、能源等重要行业的积极反馈与响应。一是发布金融业首部隐私计算互联互通标准及业界首项互联互通API接口规范,完成该标准与通信行业互联互通标准的拉通对齐,促进形成全行业适用的事实性标准;二是加快标准适配应用进程,率先完成了多方跨平台、跨算法互通联调验证,为跨域规模化组网验证试点奠定了基础;三是联合主流检测机构完成跨行业互通检测能力建设,为产业化落地保驾护航;四是引领实践数据要素流通场景,联合工行、中行、交行、招行、浦发等商业银行与蚂蚁、字节、京东、美团等产业方合作完成了睡眠卡促活、高价值用户挖掘、小微信贷风控和反欺诈等示范性行业标杆案例,为下一步跨行业规模化组网(如图3所示)应用试点提供了坚实支撑。
图3 基于隐私计算与人工智能技术的跨行业数据规模化组网流通示意
以推进行业级互联互通落地为出发点,中国银联将继续加强与各产业方的合作,共同推动金融业数据要素流通基础设施建设,助力构建开放多元的金融科技服务生态。
小结与展望
随着数据要素的进一步流通,人工智能与隐私计算的结合会更加紧密。隐私计算将成为人工智能,尤其是大模型技术在金融场景应用的重要支撑。一方面,隐私计算互联互通技术有望在金融机构间建立起数据要素有序流通的“高速路”,从而建立金融行业级的高质量数据集,帮助训练和强化金融垂直领域大模型,解决当前通用大模型难以满足金融领域特定需求的问题。另一方面,随着数据要素生态的逐步发展,可能会衍生形成规模化的算法市场和模型市场,并配套建立相应的检测认证体系。大型金融机构、互联网公司和人工智能企业凭借自身的技术优势与资源优势,可以面向中小金融机构提供通用或定制化的人工智能算法和模型,从而推动人工智能在金融行业低成本、广泛应用,提升金融行业整体的数据流通效率。
大模型等人工智能技术作为新质生产力的重要引擎,正在引领新一轮产业变革升级。金融机构和金融科技企业需要不断创新和协作,综合运用隐私计算等技术保障数据有序合规流通,并进一步打造金融细分场景人工智能应用,实现金融数据“活水”精准滴灌实体经济,切实助力金融高质量发展。
(研究组成员:王琪、李定洲、赵庆杭、戚文彬、陈钟正、胡君一、费志军、邱雪涛、袁航、邹奋、张高磊、谢袁源、侯腾、丁亚丹、庞悦、袁静、余洋、郭弘强、王大森、欧阳琛、黄磊、甘恬、刘乃幸、李爱林、陈伯伸、寇惠通、冯硕、罗科勤、安庆文、蒋丹妮、马伟峰、李洁、崔喆)
(此文刊发于《金融电子化》2025年1月上半月刊)
评论