首页 > 范文大全 > 正文

基于数据的隐私保护规则综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于数据的隐私保护规则综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据隐私保护有两方面的研究:一是一次,二是多次。目前,已有比较经典的规则应用在隐私保护中。在本文中,针对这两种情况下的几种隐私保护规则进行分析总结,并对未解决的问题进行客观的评价。

关键词:隐私保护 数据 静态数据集 动态数据集

中图分类号:TN914 文献标识码:A 文章编号:1007-9416(2012)12-0193-02

1、引言

由于网络技术的迅猛发展,人们进入到信息高度共享的时代。数据库的应用越来越广泛,数据的收集和越来越方便,伴随而来的隐患是重要数据的泄漏。有些人会趁机窃取用户的重要信息,造成隐私泄露。为了防止信息的泄漏,许多人进行这方面的研究,形成了一系列的匿名原则,用来保护一次数据和多次数据中隐私数据的安全性。

2、相关知识

2.1 等价类

在数据的匿名表中,准标识符属性完全相同的记录称为一个等价类,用英文表示为QI-group。

2.2 匿名化

匿名化的过程就是扰乱QI属性与敏感属性之间的一对一的关系的过程。现有的匿名化技术都将数据表值的记录分成若干“等价组”,组中的任何一条记录可能对应多个隐私属性值,外界无法唯一确定某个个体的信息,从而保障了隐私信息的安全性。

2.3 链接攻击[1]

通过收集多个数据源,这些数据源在孤立的情况下,无法从它本身得出任何个体的隐私信息,但如果这些数据源中存在部分属性重叠的情况,通过重叠属性的关联,可以在一个数据源中找出一条记录与另一个数据源相对应,而造成个体隐私信息泄露,将这一过程称为链接攻击。

2.4 同质攻击

在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息,而这些信息都对应着同一个敏感属性信息,从而泄露该个体的隐私,我们称这一过程为同质攻击。

2.5 背景知识攻击

在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息。虽然这些信息包含的敏感属性值都不相同,但是如果外界攻击者所具有的知识,可以从这多条信息中找出与该个体相对应的可能性极大的敏感属性信息,从而泄露该个体的隐私,我们称这一过程为背景知识攻击。

3、隐私保护规则

3.1 经典的隐私保护规则—针对一次

(1)k-anonymity匿名原则:针对数据面临的问题,L.Sweeney等人为了解决链接攻击所带来的隐私泄露问题,首次提出了K-anonymity原则[2]。其基本思想是在链接攻击的前提下,多个数据源通过准标识符建立了一座一对一的“桥梁”,从而从在一表中得知个体的身份信息,而通过这座“桥梁”,在另外一个表中得到个体的敏感信息。如果该个体对应的准标识符在包含敏感信息的表中对应多条记录,那么将无法找到两个数据源之间建立的一对一的关系。

k-anonymity 要求:当且仅当对于任何一条数据,在所有的准标志属性的投影中,该表中至少有k-1条记录与之完全相同。即要求同一等价类中至少有k条记录,则该表是k-匿名化的。由于每个个体身份被准确识别的概率至多为1/K,因此能够防止敏感属性值的泄露。

k-anonymity不足:k-匿名没有对敏感属性做任何约束,这可能会带来隐私泄露。如果同一等价类内敏感属性值较为集中,或完全相同,没有了区别度,外界就很容易推理出与指定个体相对应的敏感属性值。除此之外,外界攻击者也可以通过自己掌握的相关背景知识以高概率推测出敏感数据与个体的对应关系,从而导致隐私泄露。因此k-anonymity容易受到同质攻击和背景知识攻击。

(2)l-diversity匿名原则:为了解决同质攻击和背景知识攻击所带来的隐私泄露,A.Machanavajjhala等人在k-anonymity的基础上提出了l-diversity原则。L-diversity的提出更好的处理了等价类中敏感属性值的分布问题,避免重复率。

l-diversity的基本思路:满足k-anonymity且同一等价类中的记录至少有l个“较好表现”的值。即同一等价类中出现l个不同的敏感属性值。这样加以处理后就不会出现同一等价类中所有记录的敏感属性值都相同,使得攻击者最多能以1/L的概率来确定某个个体的敏感信息。

l-diversity不足:无法阻止相似攻击,即如果同一等价类中的敏感属性值具有语义相似性,攻击者可以根据敏感属性值在语义上的相似性得到另外一些重要信息。

(3)t-closeness匿名原则:Li等人提出了一种可以阻止相似攻击的t-closeness隐私保护规则。t-closeness要求:匿名数据中的每个等价组中的敏感属性值的分布接近于原始数据中的敏感属性值的分布,两个分布的距离不超过阈值t,并采用Earth Mover Distance来衡量两个分布之间的距离。

t-closeness不足:没有考虑到身份泄露。如果想简便的解决身份泄漏,可以在运用k-anonymity规则的基础上加以t-closeness限制来防止隐私泄露。

(4)其他关于一次中敏感属性的匿名规则:针对敏感属性的研究,还有另外两种与l-diversity策略思路相近的原则是(а,k)-anonymity和p-sensitive k-anonymity。(а,k)-anonymity要求是同一等价类中任何一个敏感属性值的出现频率不大于а。p-sensitive k-anonymity要求是同一等价类中任何敏感属性至少有p个不同的值。(k,e)-anonymity主要是针对数值型敏感属性,它要求等价类中敏感属性值的区间范围至少为e。(k,e)-anonymity试图通过最小e值克服对敏感属性值的相似性攻击,但肯能会造成搞信息损失。