这是中国科学院院士姚期智在1982年提出的“百万富翁”设想。随着云计算、人工智能技术的不断发展,数据成为了继土地、劳动力、资本、技术之外的第五大生产要素,其价值不言而喻。
与此同时,无论是个人还是企业,对于数据的隐私保护也愈加重视。此外,我国的《数据安全法》(草案)、《个人信息保护法》(草案)等代表性法律法规相继出台,严格要求在数据使用过程中做好隐私保护,例如不允许数据离开本地、不允许未经授权使用个人数据等等。
然而随着数字化进程的不断深入,数据融合应用成为了关键一环,如何打破数据保护与数据价值挖掘之间的矛盾,成为了行业亟需解决的痛点。
姚期智院士针对数据领域所提出的“百万富翁”设想,正一步一步的走进现。
隐私计算正让数据放得开,管得住
事实上,就在姚期智提出“百万富翁”设想的同时,姚期智还发布了一个名为“多方安全计算”(Secure Multi-Party Computation,简称MPC)的理论框架。然而,由于算力等因素的制约,MPC并未在提出之初,就凸显出其价值。
随着,IT基础设施的不断发展,数据融合应用趋势不断加快,以MPC为代表的隐私计算再次“蹿火”。
学术界,近年来有关隐私计算的学术会议和论文呈现爆发式增长,产业界则也愈发关注隐私计算技术和产品,各企业都争相投入到隐私计算的研发和产品化工作。
中国互联网金融协会发布的《金融业数据要素融合应用研究》的报告中,将多方安全计算、联邦学习、数据脱敏、差分隐私、可信计算列为可用于支撑金融业数据要素更好融合的五种技术。
Gartner则预测,到2025年,将有一半的大型企业会通过隐私计算赋能多方数据合作场景中的数据融合应用。
在腾讯高级执行副总裁看来,隐私计算的兴起,为人们提供了在数据安全合规、融合应用过程中寻求发展和安全之间平衡点的技术路径和解决思路,其正在成为未来数字治理的最有效路径之一。
隐私计算到底又是什么东西呢?据腾讯近日发布的《隐私计算白皮书》(下称:白皮书)解释:隐私计算(Privacy Computing)是一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。
说的文艺一点,隐私计算可以让数据相知但并不相识。
对于个人消费者而言,隐私计算的应用可以保障个人的信息安全;对于企业和机构,隐私计算不仅可以保护企业在采集、存储、分析等过程中的关键信息、商业秘密等数据,还可以促进企业的跨界数据合作;而对于政府而言,隐私计算在提升了社会数据安全保护的同时,还可以将数据要素融合从而推动城市产业的数字化转型进程。
数智化时代,隐私计算需要具备哪些特性?
随着国家、地方、企业一级个人对于数据安全愈加重视,数字化进程又依赖于数据的融合应用。
因此,在腾讯数据平台部总经理蒋杰看来,隐私计算需要以更加安全的方式打通数据孤岛,桥接多方数据,以统一的数据处理引擎更高效地挖掘数据价值,并以智能化的方式驱动整个数据处理闭环,为开发者、企业、以及政府的数字化、智能化升级打下坚实基础。
就在此洞察之下,腾讯发布了第四代数智融合计算平台“腾讯大数据-天工”
据蒋杰介绍,在安全方面,“腾讯大数据-天工”采用自研隐私计算技术,从机器学习到大数据分析为各个场景提供全方位保护,去中心化的架构则能避免单点隐私泄露风险。除此之外,在安全性上,“腾讯大数据-天工”可以提供3072bit(金融行业要求的是2048bit)业界最高强度加密和TEE硬件双保险,最大限度确保数据安全。
凭借该技术,腾讯大数据相关团队获得iDash 2020世界隐私计算大赛冠军,安全性能领冠全球。据雷锋网了解,金融级安全强度的腾讯隐私计算技术已广泛应用在医疗、金融风控、数字政务等众多领域。
在此基础之上,鉴于大数据和人工智能二者技术本质类似,“腾讯大数据-天工”平台通过解决大数据和人工智能计算框架的统一,从而更好地适配CPU、GPU、NPU、FPGA等硬件。包括通过构建大数据、AI基础算子,统一元数据用于执行优化,统一批、流、图计算形态来统一计算引擎,并及时编译,代码生成适配异构硬件。
在智能化运维方面,腾讯构建了平台大脑,从快速发现大数据运行问题到主动发现问题,再到主动解决问题,以此来推动,推动万亿级大数据分析逐步实现“自动驾驶”。
据腾讯数据平台部副总经理刘煜宏介绍,平台大脑预计可让数据中心研发效率提升60%,运营效率提升50%,平台服务质量提升80%。
在蒋杰看来,腾讯大数据平台的一个主要优势,是腾讯自身即拥有海量的数据规模,这使得腾讯大数据平台在推出的时候,就已经经过海量数据的验证。数据显示,目前,腾讯大数据平台日接入消息量超过55万亿,日实时计算量超过65万亿,平台整体算力超过500万核,日分析任务达到1500万。
雷锋网了解到,自2009年开始,腾讯就开始深耕海量大数据处理领域,并在过去十余年里完成了四代更迭。
第一代是2009年-2011年,腾讯大数据主要依托Hadoop生态,围绕离线计算模式化构建出能够稳定支撑小时/天级别的计算任务数据处理平台;第二段是2012-2014年,腾讯大数据通过引入Spark、Storm等实时计算处理框架,让大数据平台处理性能迈入毫秒级别;第三代是2015年-2019年,腾讯大数据开始朝着机器学习发展,其自研机器学习框架Angel成为国内第一个从Linux基金会毕业的顶级AI项目,并推动国内大数据处理正式进入机器学习时代。
而对于第四代产品的推出,蒋杰表示,也将继续把技术开源,回馈给开源社区,让业界更多的朋友和同行们了解腾讯的技术增长。“也希望有兴趣的朋友加入到我们的项目中,同样也可以加入到我们团队中一起开创第四代系统的研发,或者未来的发展,或者是开拓之路。”
隐私计算应用需要数据立法工作完善
对于隐私计算的发展,《白皮书》中表示:隐私计算技术正处于快速迭代和发展的阶段,目前仍在实现用户授权同意、数据存储安全、信息主体权利保障等关键合规要求的有效性上存在争议,这些争议在一定程度上限制了隐私计算的推广应用。
从技术层面而言,隐私计算实现的数据保护功能与国内外数据保护相关立法精神高度契合,具有广阔的发展前景。但在全球数据合规监管日趋严格的大背景下,隐私计算仍具有较大提升空间。
比如在用户授权同意方面,根据我国《网络安全法》及《民法典》的规定,数据处理者在处理数据时应公开收集、使用规则,并经用户同意。从理论上而言,数据合作方通过隐私计算技术实现数据分析与建模,不需实际流转数据,且处理过程中的数据都进行了匿名化处理,或不需要获得用户授权同意。
但实践中,在原始数据采集阶段,数据合作各方仍需获得用户授权同意。此外,由于个人信息的匿名化标准尚存争议,因此做好告知同意的授权管理,对强化企业数据合规仍具有重要意义。
同样在卢山看来,数字治理的探索是一项系统性工程,仅仅依靠单一技术无法满足当前和未来复杂的治理需求,需要技术、法律、制度等都不断的演进和配合,才能找到适应数字社会发展的治理路径。
而在当前这一阶段,腾讯数据平台部AI平台部总监陶阳宇表示,不妨让子弹再飞一会儿。