首页 > 范文大全 > 正文

基于隐私保护的分类挖掘

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于隐私保护的分类挖掘范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】本文阐述了隐私的概念,分析了隐私保护分类挖掘的算法,紧接着,本文分析了基于隐私保护的SVM分类挖掘算法步骤,最后,通过实验来详解隐私保护的分类挖掘算法,从而可以让读者更加明确什么是隐私保护的分类挖掘。

【关键词】隐私保护;分类挖掘

中图分类号: TP393 文献标识码: A 文章编号:

一、前言

互联网的快速发展让社会成为了一个信息爆炸的社会,在这个信息漫步的社会里,人与人之间的信息传播变得更加的简便,但是,信息传递更加便捷和方便的同时,其缺点也暴露出来,那就是信息的安全问题和隐私的保护问题。

二、隐私概念

简单地说,隐私就是个人、 机构等实体不愿意被外部世界知晓的信息。在具体应用中,隐私即为数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据,如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私,而开放的病人却不视之为隐私。 一般地,从隐私所有者的角度而言,隐私可以分为两类: 个人隐私和共同隐私。

三、隐私保护分类挖掘算法

1 相关定义

(一)熵(Entropy):刻画任意样本集的纯度.设S是n个数据样本的集合,将样本集划分为c个不同的类Ci(i=1,2,⋯ ,c),每个类C 含有的样本数目为n ,则划分为c个类信息的熵为:

其中,Pi为S中的样本属于第 类c 的概率,即P =n/n.

(二)信息增益Gain(S,A)定义为:其中Gain(S,A)=E(S)一E(S,A),其中

Values(A)为属性/4的所有不同值的集合,s ,是s中属性 的值为'/3的样本子集,S是5中属性A值为V的样本集.

2 建立决策树

分类挖掘中最为典型的分类方法是基于决策树的分类方法,决策树(Decision Tree)是一个类似于流程图的树结构.每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而树的叶节点代表类或类分布.最顶端的节点是根节点.本文采用自上而下递归的方式构造决策树.

建立决策树的关键是在每个分支对应的数据集上找信息增益最大的属性作为分支节点.通过转变后的数据集和多属性联合扰动矩阵求属性信息增益的方法如下:

设定一个数据集.s,.s的属性集为{A,,A ,⋯,A },其中A 为标签属性.

(一)求根节点最大信息增益的属性.

(1)求根节点最大信息增益的属性.

通过公式T(A ) P(A )=D(A )可以算出标

签属性A 的熵E(S).

通过公式T(A,A ) P(A,A )=D(A,A )可以

算出每个属性的熵E(S,A).通过公式Gain(S,A)=E(S)一E(.S,A)求出该属性的信息增益.

(2)已知,根节点为A1,属性A 1值为a1的数据集为s1 ,求a1 分支上分裂节点最大信息增益的属性.

通过公式表示属性的值为A1,可以算出在数据集S1标签属性A 的熵E(S1).通过公式可以算出在数据集S1上每个属性的熵E(S1 )。可以算出在数据集S1上每个属性的熵E(S1,A)。通过公式Gain(S1 ,A)=E(S1 )- E(S1 ,A)求出该属性的信息增益.

(3)求下层节点同理.直到生成的数据集中所有记录的标签属性都相同或所有属性都被分裂过才结束.

3 决策树剪枝

当决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常.剪枝方法处理这种过分适应问题.通常,这种方法使用统计度量,剪去最不可靠的分支,从而提高分类的速度和准确度.通常有两种剪枝方法:

(一)前剪枝算法是在树的生长过程完成前就进行剪枝.如Friedman提出的限制最小节点大小的方

当决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常.剪枝方法处理这种过分适应问题.通常,这种方法使用统计度量,剪去最不可靠的分支,从而提高分类的速度和准确度.

通常有两种剪枝方法:

(1)前剪枝算法是在树的生长过程完成前就进行剪枝.如Friedman提出的限制最小节点大小的方法,是当节点处的实例数目小于阈值k时,就停止生

长该节点.

(2)后剪枝算法是当决策树的生长过程完成后再进行剪枝,它允许决策树过度生长,然后根据一定的规则,减去决策树中那些不具有一般代表性的叶节点或分支.本文采用后剪技的方法.

4 由决策树提取分类规则

决策树所表示的分类知识可以被抽取出来并以IF—THEN形式的分类规则表示.从决策树的根节点到任何一个叶节点所形成的路径就构成了一条分类规则,沿着决策树的一条路径所形成的属性值的合取项就构成了分类规则的前件(“IF”部分).叶节点所标记的类别就构成了分类规则的后件(“THEN”部分).

图1 训练数据集生成的决策树

四、基于隐私保护的SVM分类挖掘算法步骤

在分布式环境中,各节点均为数据持有者,所以各节点在向数据中心汇总数据前必须确保自身数据的私有性,同时在进行分布节点的协作计算时,各节点间也要防止相互间的信息泄漏。因此,从数据流向来看,各持有者在数据流出前,必须采用有效手段确保数据隐私。

目前新的一种隐私保护算法,其算法步骤如下:

1.主节点1产生一个和本地矩阵大小相同的随机矩阵。

2.主节点把这个随机矩阵和本来矩阵相加,并把和发给下一个从节点。

3.每个从节点都接收到干扰矩阵,并把该矩阵和本地矩阵相加,然后发给下一个从节点(最后一个从节点把数据发回到主节点)。

五、实验详解隐私保护的分类挖掘算法

实验

(一)实验方法

我们开发了一个启发式的参数发生器来自动生成单属性转移概率矩阵的值;实验采用了数据库记录结构(包括布尔类型、分类类型和数字类型),及5组分类函数(Fn1~Fn5)来给标签属性赋值,以测试不同情况下分类算法的精度;实验同样采用了以上介绍的方法来生成均匀分布的原始样本数据,在此基础上再对数据进行调整以生成非均匀分布的数据;实验采用第3.3节中介绍的方法进行隐私保护数据变换,为了真正做到保护隐私,实验对任何属性(包括标签属性)都进行了变换;剪枝方法采用介绍的最小描述长度原则.

(二)实验结果分析

实验的环境为赛扬2.8GHz,2GB内存的PC机,操作系统为SCO OpenServer(TM)Release 5.07,数据库平台为Informix Online Dynamic Server 7.23.5.2.1PPCART,CART和ByClass算法的比较图1显示的是原始样本数据为100000条记录、测试数据为5000条记录、原始样本数据均匀分布条件下,采用CART原始算法、PPCART算法及性能较强的ByClass算法①在不同的相对隐私保护程度条件下5组分类函数的平均分类精度,实验结果表明,PPCART的算法精度略优于ByClass算法,但是PPCART算法解决了算法的不足,其意义远非精度可比在隐私保护程度相当高(相对隐私保护程度等于100%)的情况下,PPCART的算法精度虽然落后于CART原始算法5个百分点,但平均分类精度仍然高达90%,保持了较高分辨精度.

六、结束语

作为当今一种较为新型的隐私保护的分类挖掘的算法,它能够更好的服务于当今隐私保护事业,但是,作为一种新型的算法,还需要对其进行深入的分析和研究,优化其性能。

参考文献

[1] 张晓琳,汤彪.隐私保护分类数据挖掘研究[J].内蒙古科技大学学报. 2008(04)

[2] 郑利荣,印鉴.一种基于隐私保护的关联规则挖掘算法[J].现代计算机(专业版). 2009(06)