加入收藏 | 设为首页 |

机器学习中的隐私保护

隐私 时间:2020-04-19 编辑:sunbet官网 浏览:
分享嘉宾:郭夏玮 第四范式资深研究员 编辑整理:蒋瑞尧 内容来源:第四范式 | 先荐 出品平台:DataFun 注:转载请在后台留言“转载”。 导读: 近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在

机器学习中的隐私保护



分享嘉宾:郭夏玮 第四范式 资深研究员

编辑整理:蒋瑞尧

内容来源:第四范式 | 先荐

出品平台:DataFun

注:转载请在后台留言“转载”。


导读:近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。

主要和大家分享数据隐私的3方面:

隐私保护的问题与案例

基于数据的隐私保护技术:数据匿名化

机器学习模型训练中的隐私保护技术:差分隐私

机器学习中的隐私保护问题

1. 信息隐私

信息隐私 ( Privacy ):指的是当一个组织内敏感数据被拥有权限的人员所使用于某些技术、过程 ( 如数据分析、训练模型 ) 时,对数据敏感信息进行保护的过程与规则。

数据的隐私 ( Privacy ) 与安全 ( Security ) 并不等价:有的时候很多人提到数据隐私时,会与数据安全混为一谈,但其实两者并不等价。数据安全通常指防止数据被非法访问;而数据隐私则一般指在数据被合法访问时,防止其中的敏感信息被访问者以某些方式"逆向"获取,避免因数据被"逆向"推导出而造成的敏感信息泄露和滥用。当然,对于企业来说,数据隐私和数据安全都非常重要。

2. 信息隐私问题

如今,在很多需要用到私人敏感数据的领域中,都存在数据隐私的问题。特别地,当机器学习技术应用在一些个人隐私数据上时,可能会暴露敏感数据,对个人造成很多负面影响。

虽然现实生活中有很多数据隐私的问题,但严格意义上,个人隐私不可能被绝对保护

1977年,统计学家 Tore Dalenius 给出关于数据隐私的严格定义:攻击者不能从隐私数据里获取任何在没有拿到数据之前他们所不知道的个人信息。

2006年,计算机学者 Cynthia Dwork 证明上述定义的隐私保护是不存在的。有一个直观例子可以帮助理解:假设攻击者知道 Alice 的身高比 Lithuanian 女性平均身高高2英寸,这样攻击者只需要从一个数据集里获得 Lithuanian 女性身高平均值 ( 在接触数据前攻击者并不知道 ),就能准确获得 Alice 的精确身高,甚至 Alice 都不需要在这个数据集里。因此,对于一份有信息量的数据,不可能完全不暴露隐私信息。

3. 隐私泄露的危害

隐私泄露的危害,主要有:

用户安全受到威胁:用户信息受到泄露,引起更多有目的犯罪

非法机构利用用户隐私信息操控用户

用户信任危机

违背相关法律

不过一般来说,对于不特别极端的情况,我们仍可以从很大程度上来保证数据在机器学习过程中不被泄露。

这里再分享一个隐私泄露的案例:

这个真实案例印证了:任何有一定信息量的数据都有可能产生隐私泄露;单纯的数据匿名方法是很难保护隐私的。接下来,我们来看一下,针对潜在的隐私泄露问题我们有哪些技术可以在很大程度上杜绝隐私的泄露。

数据匿名化技术 ( Data Anonymization )

数据匿名化是一个从数据层面上进行隐私保护的技术。匿名化很多时候是通过 hash 掉"姓名"等关键标识符来实现的。而在只简单 hash 掉姓名的情况下,数据访问者有很多方法通过利用其它特征的信息来反推出某人在数据表中对应的那一条数据。这时候,就需要一种技术来防止访问者能够通过结合多个特征的数据来确定人与数据间的对应关系。

1. 数据表中数据列的类别 ( 按所含隐私量分类 )

机器学习中的隐私保护

标识列 ( Key Attribute,简称 KA ):单凭其一列便能直接锁定某人的数据列,如:身份证号、姓名 ( 大多数情况下 );

半标识列 ( Quasi-identifier,简称 QID ):无法单凭其一列确定对象,但通过结合多列数据或查其它信息 ( 缩小范围 ) 可以对应到个人的数据列,如:生日、邮编等;

敏感信息列 ( Sensitive Attribute,简称 SA ):如疾病、收入等。

虽然只有标识列的数据能够直接缩小范围到单个样本,但如前文所述,仅匿名化标识列数据对于隐私保护是完全不够的。

2. 攻击方法防护方法

① 链接攻击

<strong>Bit.bi 隐私保护:央行数字货币 DCEP 相较 Libra</strong>

Bit.bi 隐私保护:央行数字货币 DCEP 相较 Libra

原文标题:《报告:拆解 DCEP 的独特结构,深挖数字货币的隐私...[详细]

多款银行类APP涉嫌隐私不合规

多款银行类APP涉嫌隐私不合规

各类银行类APP。 资料图 法治周末记者 郝若希 “这些APP好像每...[详细]