数据智能

爆火又神秘的“隐私计算”到底是什么?

隐私计算是指在保证数据提供方不泄露原始数据前提下,保障数据在流通与融合过程中的“可用不可见”。

2022年04月20日
  • 数据智能

火了足足一年多,竟然还有人没搞懂,甚至不清楚“隐私计算”?

隐私计算是指在保证数据提供方不泄露原始数据前提下,保障数据在流通与融合过程中的“可用不可见”。其火爆,从各种数据和文字中可见一斑——近6年融资超70亿;被誉为下一个万亿级超级产业;是数字经济底层基础设施;被政策文件、媒体专家频频提及。

有人觉得隐私计算抽象晦涩,再加上联邦学习、可信执行环境、多方安全计算这几个概念更是傻傻搞不清,网上查资料要么太深看不懂,要么太浅搞不清,要么太碎不系统。近日,一则《爆火又神秘的“隐私计算”到底是什么?》的视频,用通俗的语言把这几个概念讲得形象又清晰,借着这支视频,我们来科普下这个让人不明觉厉的爆火新产业、新法宝。

密语:隐私计算是什么

有人就有隐私,有隐私就需要保密。

关于保密的需求,最早可以回溯到大概公元前1500年的美索不达米亚。那时候人们主要依靠笔和纸,或简单的机械辅助工具进行加密。我国古代也有密码学的应用,例如中国古代兵书《六韬》中的阴符和阴书,被应用于军事领域,帮助君主在保密的情况下与在外作战的将领进行通信。这时期的保密方式非常传统,也被称之为古典密码学阶段。

此后,密码学经历了近代密码学和现代密码学。

我们现在所处的现代密码学阶段被认为是从19世纪40年代现代信息学之父香农的《密码学数学理论》开启。1976年 Diffie 和 Hellman 的公钥密码思想的提出,是现代密码学的里程碑,加速了现代密码学的发展。随后,1982年,姚期智院士提出的百万富翁问题,开创了多方安全计算这一密码学新分支。

注意,到这里我们说的还是密码学的发展。近年来,随着人工智能技术的崛起,核心软硬件、人工智能芯片、智能基础算法的发展,密码学、人工智能、计算芯片、统计学、区块链交叉融合,产生了“隐私计算”。

根据产生根源和发展历程,隐私计算的定义和作用就很明了了。主要目的是在保密下传递信息,是多种技术的统称,可以让多个数据拥有者,在不暴露数据本身的前提下,实现数据的共享、互通、计算、建模,最终产生超出自身数据的价值,同时保证数据不泄露给其他参与方。

《爆火又神秘的“隐私计算”到底是什么?》视频中用了一个非常形象的例子帮助理解,例如首饰加工中对于原材料的保护,传统的原材料(数据)挖掘采用直接共享原始数据模式,类似于从各矿源购进原材料加工首饰,材料在运输和加工过程中没有充分保护,就可能存在数据滥用和转卖等风险。在隐私保护模式中,数据的使用方(工厂)和各原料方(矿石厂)只交换加工好的部件及参数,并在原料方完成生产后上锁运输,在加工过程中也提供安全保护,且只有授权用户才可以使用。这样就破除了隐私保护、数据共享和数据流动的“不可能三角”,实现了数据“可用不可见”。

1+1>2:隐私计算底层技术

隐私计算不是单一的技术,而是一个技术体系,包含联邦学习、可信执行环境、多方安全计算、差分隐私、同态加密、区块链等技术。联邦学习、可信执行环境和多方安全计算被认为是主要三大技术路径。

要理解隐私计算如何发挥作用,就要明白这些底层技术的机制原理。《爆火又神秘的“隐私计算”到底是什么?》视频形象又透彻的科普了隐私计算三大底层技术。

可信执行环境,又称TEE,是通过软硬件结合的高度安全的技术解决方案,是在CPU内构建一个基于指令级别的安全区域。举个形象的例子,好比隐藏宝藏的山洞,山洞就像一个CPU,在山洞内还会设置隐藏的密码箱存储宝物,通过隔离的执行环境,提供一个执行空间,该空间相比所有移动设备通用的环境(REE)侧操作系统有更强的安全性,比安全芯片功能更丰富,提供其代码和数据的机密性和完整性保护。基于此,可以梳理出,隔离、算力共享、开放性是可信执行环境的三个关键特征。

多方安全计算(MPC), 指多个互不信任的参与者在保护个人隐私的同时,共同执行一个计算逻辑并获得计算结果。这套理论源于著名的「百万富翁」设想——两个百万富翁A和B想比较谁更富有,但是又不想暴露自己具体有多少资产,于是,将各自财产数加密后输出给计算方C,C将比较结果反馈给二人。而在实际运算中,取代中间人的是一套更可信的协议和算法,参与方只能得到结果,无法得知对方原始数据。不经意传输,是多方安全计算的最基础协议,利用不经意传输可以构造混淆电路、零知识证明协议和Beaver三元组等,也是隐私求交(PSI)和隐私信息查询(PIR)最有效的实现方式。

联邦学习是保证原始数据不出数据源方安全控制范围下,多方共同协作联合构建AI模型。《爆火又神秘的“隐私计算”到底是什么?》给了一个形象的类比,章鱼是无脊椎动物智商最高的生物,自身就是一个生动的“分布式智能系统”,它的大脑只进行40%的动作处理,其他则由分布在各条触角上的“迷你大脑”独立处理。这些“触角”的高度独立性,让终端数据在计算的全过程始终存储在本地,避免了数据泄露的风险。同样的,联邦学习中各个数据源也拥有独立计算单元,从而确保了原始数据始终存储在本地。

受到了工业界和学术界广泛关注的联邦学习多被认为是2016年由谷歌提出,但其实,有公开资料表明,我国学者王爽教授在2012年就开创性地提出了安全联邦学习底层框架并应用在大规模医疗在线学习。

王爽教授何许人也?据了解,王爽教授现任专注隐私计算的服务提供商锘崴科技创始人、董事长,是2018年中组部引进的“海外青年高层次人才”, 国际顶级赛事iDASH 隐私保护计算比赛创办人,是著名的隐私计算专家。

王爽教授带领锘崴团队在普通联邦学习基础上提出了安全联邦学习,加入可信执行环境、同态加密、多方安全计算等技术,弥补了普通联邦学习的缺陷,实现多方数据协作联合计算过程中的隐私保护,实现1+1>2的结果。

赋能:隐私计算的价值

谈隐私计算,必谈应用价值。关注隐私计算的人都知道,进入2022,隐私计算圈讨论最多的就是商业价值和应用落地。而隐私计算之所以火爆,很大原因也在于其广阔的应用前景。

随着数据成为生产要素,个人隐私保护意识的增强,数字化网络化进程加快,隐私计算成为一项基础技术设施,确切来说,它不是一个可有可无、可大可小的新市场,而是刚需,是为信息社会配套服务的,只要有数据协作的场合都可以并应该应用。

目前,隐私计算已与越来越多的场景做结合,例如金融领域,助力银行、保险机构进行联合分析建模、数字营销、智慧风控、智能反欺诈等;在政务领域,助力政务数据融合并对外共享,安防隐私匹配,服务智慧三农。在医疗领域,助力卫生监管部门、医疗机构、药企等加强数据协作,应用于医疗科研、药物研发、卫生防疫等。

医疗领域被认为是隐私计算应用最复杂领域,跟非医疗领域相比,医疗领域数据类型更丰富,参与方更多,对安全性、精准度的要求也会更高,加之医疗数据安全一直是监管重点,对医疗行业数据交换和共享技术要求也更高。

我们以医疗领域为例,来看下隐私计算如何赋能。

纵观众多隐私计算企业中,深耕医疗者寥寥,前面提到的王爽教授创立的锘崴科技是为数不多中的佼佼者,耕耘隐私计算十余年,尤其是在医疗领域取得了卓越的成效。锘崴科技基于医疗领域研发的锘崴信®医疗大数据保护计算平台(NovaVita)能够帮助医药企业、医疗机构和保险公司提高数据安全管理水平,同时还能够通过病例数据共享,形成联合AI模型进一步提高精准度。

举个实际案例,例如某三甲医院需要进行有关强直性脊柱炎的全基因组关联分析以开展更好的疾病防治工作,但基因数据具有高通量、高敏感度的特点,加之因医院不能给、不想给、不愿给造成的医院间数据孤岛,让数据分析传输难度大。锘崴信®隐私保护计算平台,为某医疗机构开发跨省多中心基因数据分析系统,系统满足个人信息本地化存储要求,保证用户的知情、决定、限制、拒绝、删除等权限,辅助全基因组关联分析研究顺利完成。

经过医疗级检验,目前隐私计算技术产品已经被不断认可并逐渐成熟,未来,隐私计算将为更多领域“赋能”,成为数字经济真正不可或缺的基础设施。

最后,用视频中的结语作为结束语,说了这么多,你get隐私计算了吗?是否对这个万亿级新产业满怀期待?