首页 > 范文大全 > 正文

基于已知信息独立分量分析和局部旋转扰动的数据挖掘隐私保护研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于已知信息独立分量分析和局部旋转扰动的数据挖掘隐私保护研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:通过研究数据挖掘隐私保护,借助乘法扰动算法,探索提出了一种全新的算法――已知信息独立分量分析(Known Knowledge Independent Component Analysis),这种算法可以从经过旋转扰动或随机投影变换的扰动数据得到近似值或者原始数据;紧接着,得出全新的乘法扰动隐私保护算法――局部旋转扰动方法(Partial Rotation Perturbation),此法能够有效抵御KK-ICA的攻击并且安全性更高。

关键词:数据挖掘;隐私保护;已知信息

基金项目:大学生创新创业训练项目(201311845020):基于乘法扰动的数据挖掘隐私保护算法研究。

1. 引言

各种各样顾客对个人数据的隐私保护要求有所不同,也有少部分顾客可能很少在乎数据隐私问题。因此,这也给攻击者提供了收集某些个人隐私数据的大好机会,还可以依据这些已知的数据样本去获取更可信的原始数据。

已知信息独立分量分析(Known Knowledge ICA)是一种基于独立分量分析(ICA)的数据重构方法。本文分析证明当攻击者知道一小部分样本数据时,他可以使用KK-ICA准确有效的近似估计得到原始数据。因此KK-ICA对旋转扰动方法和随机投影方法的隐私安全性造成了很大威胁。

本文企图通过研究数据挖掘隐私保护,借助乘法扰动算法,探索提出了一种全新的算法――已知信息独立分量分析(Known Knowledge Independent Component Analysis),这种算法可以从经过旋转扰动或随机投影变换的扰动数据得到近似值或者原始数据;紧接着,研究全新的乘法扰动隐私保护算法--局部旋转扰动方法(Partial Rotation Perturbation),此法能够有效抵御KK-ICA的攻击并且安全性更高。

2. 已知信息独立分量分析和局部旋转扰动的数据挖掘隐私保护

2.1 假设

图2-1 已知信息独立分量分析过程

Figure3-1 Process of KK-ICA

2.2 确定J

得出全新的乘法扰动隐私保护算法――局部旋转扰动方法,能够避免KK-ICA的影响,提高隐私安全性。

2.3局部旋转扰动基本原理

旋转扰动方法指的是拥有一个特殊的性质,一旦通过旋转扰动后的数据能够非常轻松应用于基于点积或距离的各种数据挖掘模型。如图

图3-2 客户端和服务器

Figure3-2 Clients and Servers

局部旋转扰动中使用的对角块矩阵都是正交的,以上结论可以扩展到任意维度的旋转变换。给定了线性性质,本文将分别分别讨论客户端和服务器端的执行过程来说明RRP方法。如果使用两个不同的参数分别旋转扰动两个数据集得到扰动数据集,再经过一定变换,可以保留旋转扰动方法距离和内积不变的性质。

2.4 计算原理

得出:变换矩阵可以保持了原始数据向量距离、长度以及点积,因此局部旋转扰动方法的准确性有保证并且损失为零。

3 结论与讨论

通过以上原理的研究,已知信息独立分量分析(KK-ICA)方法这个全新的方法,其对旋转扰动方法(RP)以及投影扰动方法(PP)的数据隐私安全保护造成了很大的威胁。数据攻击者能够利用KK-ICA这个漏洞窃取用的需要隐私保护数据,非常严重地降低了流行隐私保护算法的数据隐私保护安全性;最后针对这种潜在可能的威胁,提出了新的乘法扰动隐私保护算法――局部旋转扰动方法(PRP),变换矩阵可以保持了原始数据向量距离、长度以及点积,因此局部旋转扰动方法的准确性有保证并且损失为零。■

参考文献

[1] M. L. Eaton, M. D. Perlman. The non-singularity of generalized sample covariance matrices[M]. The Annals of Statistics, 1973, 1(4): 710-717.

[2] A.K. Gupta, D.K. Nagar. Matrix variatedistributions[M]. Chapanand Hall/CRC, Oct. 1999.

[3] S. Guo, X. Wu. Deriving private information from arbitrarily projected data[J]. Advances in Knowledge Discovery and Data Mining, 2007: 84-95.

[4] 史晓丽.基于统计分布的临床行为异常检测模型[D].镇江:江苏大学,2011.

[5] S.Guo. Analysis of and techniques for privacy preserving data mining[M]. Ann Arbor:ProQuest Information and Learning Company, 2007.

[6] 聂跃光.基于密度聚类的空间数据挖掘算法研究[D].太原:太原科技大学,2008.

[7] 周金革、杨国清、李雪岩. 基于自适应元胞遗传算法的房地产信托投资基金价格研究[J]广东商学院学报, 2011, 6, 32-38.

[8] 肖岳.移动数据的智能分析与隐私保护[D].广州:广东工业大学,2011.

[9] 宫博.P2P流量识别与分类技术研究[D].南京:南京邮电大学,2010.

[10] 刘广利.基于支持向量机的经济预警方法研究[D].北京:中国农业大学,2003.

[11] 李贤鹏.基于决策树的移动通信企业数据挖掘企业[D].长沙:湖南大学,2008.

[12] 周金革、陈娟. 基于错误决策影响因子的股票价格模型[J]广西大学学报:自然科学版, 2013, 38(5), p1257-1263

[13] 郑宏宇.关于支持向量机方法的探讨[D].西安:西北大学,2010.

[14] 邹丹.基于Web的文本分类的研究与实现[D].北京:中国地质大学,2006.

[15] 李全彬.非约束环境下的人脸识别系统的研究[D].上海,华东师范大学,2006.