基于免疫克隆特征选择和欠采样集成的垃圾网页检测(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于免疫克隆特征选择和欠采样集成的垃圾网页检测范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：为解决垃圾网页检测过程中的“维数灾难”和不平衡分类问题，提出一种基于免疫克隆特征选择和欠采样（US）集成的二元分类器算法。首先，使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集，再将其分别与小类样本合并构成多个平衡的子训练样本集；然后，设计一种免疫克隆算法遴选出多个最优的特征子集；基于最优特征子集对平衡的子样本集进行投影操作，生成平衡数据集的多个视图；最后，用随机森林（RF）分类器对测试样本进行分类，采用简单投票法确定测试样本的最终类别。在WEBSPAM UK2006数据集上的实验结果表明，该集成分类器算法应用于垃圾网页检测：与随机森林算法及其Bagging和AdaBoost集成分类器算法相比，准确率、F1测度、AUC等指标均提高11%以上；与其他最优的研究结果相比，该集成分类器算法在F1测度上提高2%，在AUC上达到最优。

关键词：

垃圾网页检测；集成学习；免疫克隆算法；特征选择；欠采样；随机森林

中图分类号： TP391.1； TP393.098； TP181 文献标志码：A

0引言

垃圾网页指的是那些在搜索引擎查询结果中具有良好的排名而实际价值却较差的网站和网页。垃圾网页之所以会出现，是由于搜索引擎用户倾向于只点击那些排名靠前的链接。为了取得靠前的排名，各网站便想方设法采取各种手段优化网站。而通过正当手段提高网站排名，成本极其高昂，于是各种网页作弊手段轮番上阵。据估计，整个互联网的垃圾网页占到15%左右[1]。垃圾网页削弱了搜索引擎的权威性，浪费了大量计算与存储资源，剥夺损害了合法网站的正当利益，降低了搜索结果的质量[1]。垃圾网页检测已成为搜索引擎最为重要的任务之一。

一般可将垃圾网页分为3种类型：内容垃圾（content spam）、链接垃圾（link spam）和使用垃圾（usage spam）。相应地，搜索引擎也可以从网页的内容、链接以及搜索引擎使用情况3个方面提取特征以识别垃圾网页[2]。然而作弊手段变化多端，一旦针对某种特征设计出特定的算法以检测某种特定种类的垃圾网页，一种绕过该检测算法的新作弊手段又会出现，使得该特定的检测算法失效。机器学习技术可充分利用各种已提取的特征训练出检测模型以应对作弊手段的无穷变化。

研究人员已提取出大量的特征用于检测垃圾网页。当使用这些特征训练传统的分类器比如决策树分类器时，极易陷入“维数灾难”问题，如果特征数较少分类性能尚佳，当特征数增加时，分类器性能反而下降。这种现象也被称为“休斯现象”[3]，那么该如何组合众多的特征以训练出性能更好的分类器呢？一种可行的办法是使用特征选择遴选出最优的特征子集，将该特征子集用于训练分类器可能提高分类器性能。根据特征子集评价方法的不同，特征选择方法可分为两种：过滤式（filter）方法[4]和封装式（wrapper）方法[5]。找出最优的特征子集是一种NP难（Nondeterministic Polynomial hard）问题。模拟退火[6]、蚁群优化[7]、遗传算法[8]、人工免疫系统算法[9-10]等诸多启发式智能算法常用来寻找最优特征子集。

互联网中的垃圾网页虽然数量巨大，但与正常网页相比，依然是少数。由此可知，垃圾网页检测是一个不平衡分类问题。然而，大多数传统分类器，包括决策树分类器，不太适用于不平衡分类。重采样[11]（包括欠采样和过采样）、代价敏感分析[12]、核分类器[13]等方法常用于解决不平衡分类问题。

卢晓勇等[14]采用一种将随机森林（Random Forest， RF）与欠采样（UnderSampling， US）技术相结合的算法解决垃圾网页检测中的“维数灾难”和不平衡分类问题，但其分类性能仍有待改善。本文首先基于人工免疫系统的克隆增殖、高频变异以及免疫耐受等思想，设计了一种免疫克隆算法用于特征选择，并结合随机森林和欠采样技术用于垃圾网页检测，取得了更好的分类性能。

1本文方法

本文提出的用于检测垃圾网页的集成分类器模型框架如图1所示。其中训练阶段包括3个过程3、这里改为：4个步骤4个步骤：首先使用欠采样技术将不平衡数据集转换为多个平衡数据集；再次使用免疫克隆算法进行特征选择选取多个最优特征子集对每个平衡数据集进行投影操作，产生多个平衡数据集；最后使用上述所得每个平衡数据集训练随机森林分类器并按投票法简单集成。

首先使用欠采样技术将不平衡数据集转换为多个平衡数据集；再次使用免疫克隆算法进行特征选择，得到多个最优特征子集；然后基于这些最优特征子集对每个平衡数据集进行投影操作，产生多个平衡数据集；最后使用上述所得每个平衡数据集训练随机森林分类器并按投票法简单集成。

4、这整句话改为：

本文将此集成分类器命名为免疫克隆特征选择和欠采样集成随机森林（Immune Clonal Feature Selection and UnderSampling Ensemble Random Forests， ICFSUSERF）分类器。在测试阶段，使用ICFSUSERF分类器估计测试样本的分类，确定其是否为垃圾网页。

1.1欠采样

假设小类样本集S和大类样本集N，欠采样从大类样本集N中随机地抽取出样本子集N′，使得N′的样本数n′远远小于N的样本数n，即n′n，但约等于小类样本集S的样本数s，即n′≈s。将大类样本子集N′与小类样本集S合并一起构成一个新的平衡样本集D。使用此平衡的样本集D训练分类器模型要比原来不平衡的样本集无论是在运行性能还是分类准确率上都要更好。然而D只利用了大类样本集的小部分样本，其他样本未得到使用，白白浪费。为充分利用所有大类样本，将大类样本采用不放回抽样平均分成k等份可得到k个样本子集，N1′，N2′，…，Nk′，其中k=round（n/s）。这样得到每份大类样本子集N′的样本数n′也约等于小类样本集S的样本数s，即n′=round（n/k）≈s。分别组合N′与S，得到k个均衡的样本子集Di={S，Ni}，i=1，2，…，k。每个平衡的样本集D均可用于训练一个分类器。算法1列出了欠采样技术将不平衡数据集转换为平衡数据集的伪代码。

算法1欠采样算法。

输入：不平衡数据集，内含小类样本集S和大类样本集N。

输出：多个平衡的样本子集Di（i=1，2，…，k）。

1）s=小类样本个数；

2）n=大类样本个数；

3）k=round（n/s）；

4）将大类样本平均分成k个样本子集N1′，N2′，…，Nk′，其中Ni′的样本个数ni′约等于小类样本集S的样本个数s；

5）分别组合样本子集Ni′和小类样本集S构成新的平衡样本子集Di；

6）返回Di{D1，D2，…，Dk}（i=1，2，…，k）。此处的书写不太妥当？是否应该改为“6）返回Di（i=1，2，…，k）。”，请明确。

1.2免疫克隆特征选择

在免疫克隆特征选择算法中，B细胞和抗体对应最优特征子集，抗原对应搜索最优特征子集问题本身。抗体由二进制位串表示。位串长度是总的特征个数。某位值为1表示相应特征被选中，为0则表示相应特征不被选中。例如抗体[1 0 1 0 0]表示仅第1个和第3个特征被选中。该免疫克隆特征选择算法流程如图32所示。首先产生初始抗体群，抗体群包含若干抗体。若未达到最大迭代次数则进入迭代。每次迭代时首先计算抗体与抗原之间的亲和度，根据亲和度大小不同克隆出不同数量的抗体，再对克隆抗体进行高频变异操作。最后进行抑制操作，产生新抗体补充到抗体群中，保证抗体的多样性。下面详细描述每个步骤。

步骤1产生初始抗体群。

首先，随机产生一个抗体群，产生方式如式（1）所示：

P=round（rand（p， f））（1）

其中：P表示抗体群；p表示抗体的个数； f表示特征的个数；

rand（p， f）将返回p行f列的值为0至1的实数矩阵rand（p， f）是一个数值，还是实数矩阵？请明确一下；round为四舍五入操作，使得所有的实数取整为0或1。

rand（p， f）将返回一个p行f列的实数矩阵，其中每个元素的取值范围在[0，1]区间；round为四舍五入操作，使得矩阵中的所有元素取整为0或1。

这样便返回p个抗体，每个抗体由f位二进制位串组成。

步骤2计算亲和度。

抗体与抗原的亲和度对应最优特征子集用来分类的准确性。在垃圾网页检测中，使用AUC（Area Under ROC Curve）指标衡量分类准确性。其中封装的分类器算法即为基于欠采样集成的随机森林算法。抗体与抗原之间亲和度计算的伪代码如算法2所示。该算法体现了交叉验证和欠采样集成的结合使用。

算法2亲和度计算算法。

输入：训练集D，二进制位串S，表示选中的特征子集，整数n，表示n折交叉验证。

输出：AUC值。

1）根据二进制位串S表示的特征子集对训练样本集D进行投影操作，得到新的训练样本子集D′。

2）将新训练样本子集D′划分为小类样本集DS和大类样本集DN两部分。

3）将小类样本集DS平均分成n等份DSi{DS1，DS2，…，DSn}，同样将大类样本集DN平均分成n等份DNi{DN1，DN2，…，DNn}。

4）分别合并DSi和DNi构成新的数据集DMi{DM1，DM2，…，DMn}。

5）针对DMi中的每一个平衡数据集执行如下操作：

①将DMi视为测试集DMte，DM中的其他所有样本视为训练集DMtr。

②对DMtr进行欠采样抽样，得到k个平衡的样本子集DBi{DB1，DB2，…，DBk}。

③初始化DMte中每个样本的spamicity值：spamicity=0。

④针对每一个平衡样本子集执行如下操作：

a）使用DBi训练随机森林分类器。

b）使用随机森林分类器对DMte中的样本进行分类，如果为正常网页，则分类结果值result为-1，否则为1。

c）将分类结果累加到spamicity：spamicity=spamicity+result。

6）计算spmicity的均值：spamicity=spamicity/k。

7）根据每个样本的spamicity值计算AUC。

步骤3克隆选择。

将所有抗体按亲和度值从大到小进行排序，选择最优的前l个抗体L进行克隆以产生新的抗体。其他未被选中用于克隆的抗体由于亲和度值不好直接被删除。每个抗体克隆出的新抗体个数与其适应度值成正向关系此处的书写是否正确？是正比吗？请明确。答：是正向关系，并非正比关系。即新抗体个数与适应度值的排序正相关。非常感谢！。所有被选中抗体克隆的抗体个数如式（2）所示：

lc=∑li=1round（βl/i）（2）

其中： β为乘数因子；l为被选中的用于克隆的抗体个数；i为前l个抗体的序号；lc是克隆产生的抗体总数。例如，如果l为7， β为2，则第1个抗体将产生lc1=round（（2×7）/1）=14个抗体，第2个抗体将克隆产生lc2=round（（2×7）/2）=7个抗体，依此类推。

步骤4高频变异。

每一个克隆产生的抗体在进入下一次迭代之前都要经历一次高频变异操作。本算法的高频变异操作通过改变二进制串的位值而实现。某位值由0改变为1表示某个未被选中的特征被选中；反之，若由1改变为0表示被选中的特征不再被选中。本算法按以下启发式规则实行变异：

1）新增少量新特征可能比原有特征子集获得更好的分类性能。

2）删减少量特征可能比原有特征子集获得更好的分类性能。

为保持抗体的多样性，应避免抗体种类的重复，因此每次变异抗体时，应保证新抗体尚未出现在候选抗体群中。

步骤5抑制操作。

抑制操作的目的是保持抗体群的多样化。抑制操作与初始化类似，只是随机产生一定数量的抗体加入候选抗体群。同样，新产生的抗体必须保证尚未出现在候选抗体群中。

1.3集成随机森林分类器

使用免疫克隆特征选择算法获得n个最优的特征子集以及使用欠采样技术获得k个平衡的训练样本集之后，每个平衡的训练样本集可根据不同的最优特征子集采用投影操作获得n个不同的训练样本子集，这样，共可以获得n×k个平衡的训练样本子集。基于此n×k个平衡的训练样本子集，可训练出n×k个随机森林分类器，采用简单投票机制将n×k个随机森林分类器集成起来，即为集成随机森林分类器。

1.4测试阶段

可将集成分类器的每个随机森林分类器用于对测试样本进行分类，得到一个分类结果。分类结果不同其返回结果值也不同。其计算方法如式（3）所示：

Score（x，C）=1，分类为垃圾网页-1，分类为正常网页（3）

其中：x为测试样本；C为一个随机森林分类器；Score（x，C）为根据分类结果得到的返回值。将所有随机森林分类器的分类结果返回值进行累加后再取平均值，即得到最终的分类结果值，该值范围在[-1，1]区间。在垃圾网页检测中，此值被称为spamicity。测试样本中所有样本的spamicity值可直接用于计算AUC值以评估集成分类器的分类效果。测试样本的最终分类结果可通过式（4）得到：

ClassificationResult=1，spamicity>0-1，spamicity≤0 （4）

如果ClassificationResult值为1，则为垃圾网站，否则为正常网站。

ICFSUSERF算法采用欠采样集成技术，将不平衡数据集转换为平衡数据集，并充分利用所有样本，提高了分类效果；用克隆选择算法遴选最优特征子集用于构建集成分类器，充分发挥了最优特征的作用，一定程度上避免了“维度灾难”问题。

2实验

2.1数据集及评价指标

本文实验所用数据集为WEBSPAMUK2006[12]，它是网络对抗信息检索研讨会2007年用于垃圾网页检测竞赛使用的数据集，现已成为垃圾网页检测研究的公开数据集。数据集本身已按保留法（HoldOut）的要求，分为训练集和测试集两个部分。数据集特征众多，本文采纳其中四种类型的特征，分别是：基于内容的特征96个，基于链接的特征41个，基于链接转换的特征135个，基于邻接图的特征2个。训练集和测试集的样本数情况如表1所示。由表可知，训练集中正常网站与垃圾网站的比例约为7∶1，这表明训练集是不平衡的，与真实情况较为一致。

本文使用3种指标评估分类模型，分别是准确率（Accuracy）、F1测度（F1Measure）和AUC值。本文将垃圾网页检测视为二元分类问题。对于二元分类问题，其表达测试样本集分类结果的混淆矩阵由TP（True Positive）、TN（True Negative）、FP（False Positive）和FN（False Negative）四个值构成，其中：TP为被正确分类的正例，TN为正确分类的负例，FP为错误分类的正例，FN为错误分类的负例。于是准确率和F1测度值可分别用式（5）和式（6）计算得到：

Accuracy=TP+FNTP+FP+FN+TN（5）

F1Measure=2TP2TP+FN+FP（6）

对于二元分类而言，随机挑选一个正样本以及一个负样本，分类算法根据计算得到的分数（Score）值将正样本排在负样本前面的概率即为AUC值[15]。在垃圾网页检测中，最终得到的spamicity值即可作为Score值。AUC值越大表明当前的分类算法越有可能将正样本排在负样本前面，即能够更好地分类。AUC值相比较准确率和F1测度而言，更适合于不平衡数据集的分类性能评价[16]。

2.2参数设置

最早的克隆选择算法是De Castro等提出的CLONALG（CLONal selection ALGorithm）算法[17]。本文提出的ICFSUSERF算法基本流程与其他克隆选择算法类似，只是针对特征子集选择应用设计了一些初始化抗体种群、亲和度计算、克隆选择、高频变异、抑制操作等算子。另外，ICFSUSERF算法需要得若干个而非一个最优抗体个数（最优特征子集）。每个最终生成的抗体将用于生成二元分类子分类器。对于集成二元分类，子分类器的个数为奇数更合适。如果个数太少，集成效果不明显；如果个数太多，算法耗时明显增加，而集成效果并不显著增加。本实验依次选用3至13个最优抗体，发现当最优抗体数为7时，分类准确率、F1测度以及AUC等值处于全面较优的状态，因此，最终选择7作为最优抗体个数。在进行最优特征子集选择的训练过程中，需要对训练集进行n折交叉验证。交叉折数的设定与数据集的样本个数是紧密相关的。在样本个数确定的情况下，如果交叉折数太多，则每个训练样本子集的样本数太少，无法训练出足够好的分类器；如果交叉折数太少，则分类器集成的性能将下降。本实验将交叉折数设为5，实验结果较为理想。一般而言，克隆选择算法需要设置的参数有：初始化抗体种群中抗体的个数、克隆选择抗体的比率、高频变异抗体的比率、抑制操作的比率以及迭代次数等。为简化算法设计，ICFSUSERF算法将克隆选择抗体的比率、抑制操作的比率等参数设计为克隆选择抗体个数、抑制操作抗体个数等数量值，将高频变异抗体比率设置为100%，即所有克隆产生抗体都要进行变异。初始化抗体种群中抗体的个数、克隆选择抗体个数和抑制操作抗体个数一般要大于最优抗体个数，但如果个数太多，每次迭代耗时又将急剧增长，应设在20以内为宜，本实验分别设为20，7，20。迭代次数是根据具体问题的收敛情况确定的。从多次实验结果看，本文实验一般会在400次左右收敛，故选择迭代次数为500。

2.3不同方法的比较

将ICFSUSERF对WEBSPAM UK2006数据集进行分类，将其结果与随机森林及其他相关的分类器比较。这些分类器包括随机森林、Bagging集成随机森林（RF+Bagging）、AdaBoost集成随机森林（RF+AdaBoost）以及文献[14]提出的欠采样集成随机森林（RF+US）等。不同方法的实验结果如表2所示。从表2可看出，ICFSUSERF与RF+US分类器的分类效果远远优于其他分类器，无论在准确率、F1测度还是AUC指标方面，都要比其他方法更优，均提升11%左右，而本文提出的ICFSUSERF方法比RF+US方法又有所提升。

表3列出了本文所提算法的结果与2007年垃圾网页挑战竞赛各优胜团队分类结果的比较情况。由表可知，ICFSUSERF分类器的分类性能在F1测度这个指标上，其值为0.93，表现得比所有优势团队都好；而在AUC这个指标上，其值为0.94此处为0.95，与表3中的0.94不一一致？是否书写错误？请明确。，仅次于Cormack团队的结果0.96。然而，Cormack团队的F1测度值仅为0.67，表明其分类准确率并不高。

Scarselli等[18]5.将[15]改为：[18]提出一种包含概率映射图自组织映射（Probabilistic Mapping Graph selforganizing map， PMG）和图神经网络（Graph Neural Network， GNN）的图层叠架构用于垃圾网页检测，同样基于WEBSPAM UK2006数据集进行实验。表4显示其所提方法的实验结果，其中的FNN（Feedforward Neural Network），PMG+GNN（3）+GNN（1）算法表现出最好的检测效果。本文提出的ICFSUSERF分类器与其相比，除了准确率更低外，F1测度和AUC两个指标上则更优，特别是F1测度提升显著。

2.4讨论

虽然实验结果并不表明，本文方法在所有的评价指标上均优于其他方法，但在F1测度和AUC两个指标上表现出来的优良分类结果，依然表明ICFSUSERF算法用于垃圾网页检测效果良好。其良好效果的获得，主要得益于以下3点：1）欠采样技术将不平衡数据集转换为平衡数据集，解决了不平衡分类问题；2）基于欠采样的集成充分发挥所有训练样本的作用；3）基于免疫克隆特征选择的算法一定程度上解决了维数灾难问题，并充分发挥了所有特征子集的作用。

3结语

垃圾网页检测是对抗信息检索领域的一个重要主题。因为用于训练分类器的垃圾网页检测数据集往往是特征众多且正负类极其不平衡的，为解决其维数灾难和不平衡分类问题，本文提出一种基于欠采样和免疫克隆特征选择的集成随机森林分类器ICFSUSERF用于垃圾网页检测。在WEBSPAMUK2006上的实验结果表明，ICFSUSERF的分类性能优良。与其他最优秀的分类器比较，虽然ICFSUSERF在准确率指标并不占优；但在AUC和F1测度两个指标上明显优于其他方法。

垃圾网页检测依然是对抗信息检索领域中一项艰巨的任务，除了探索一些优秀的机器学习算法在垃圾网页检测中的应用外，从网页内容、链接以及搜索引擎使用信息方面提取特征以检测垃圾网页也是一个通常的研究领域。另外，将本文提出的ICFSUSERF方法应用于其他领域，也是进一步研究的方向。

参考文献：

[1]

SPIRIN N， HAN J. Survey on Web spam detection： principles and algorithms [J]. ACM SIGKDD Explorations Newsletter， 2012， 13（2）： 50-64.

[2]

CHANDRA A， SUAIB M. A survey on Web spam and spam 2.0 [J]. International Journal of Advanced Computer Research， 2014， 4（2）： 634-644.

[3]

TAHIR M A， BOURIDANE A， KURUGOLLU F. Simultaneous feature selection and feature weighting using hybrid tabu search/Knearest neighbor classifier [J]. Pattern Recognition Letters， 2007， 28（4）： 438-446.

[4]

BONEV B， ESCOLANO F， CAZORLA M. Feature selection， mutual information， and the classification of highdimensional patterns [J]. Pattern Analysis and Applications， 2008， 11（3/4）： 309-319.

[5]

MOUSTAKIDIS S P， THEOCHARIS J B. A fast SVMbased wrapper feature selection method driven by a fuzzy complementary criterion [J]. Pattern Analysis and Applications， 2012， 15（4）： 379-397.

[6]

LIN S， LEE Z， CHEN S， et al. Parameter determination of support vector machine and feature selection using simulated annealing approach [J]. Applied Soft Computing， 2008， 8（4）： 1505-1512.

[7]

AHMED A. Feature subset selection using ant colony optimization [J]. International Journal of Computational Intelligence and Applications， 2005， 2（1）： 53-58.

[8]

AHMAD F， ISA N A M， HUSSAIN Z， et al. A GAbased feature selection and parameter optimization of an ANN in diagnosing breast cancer [J]. Pattern Analysis and Applications， 2014， 18（4）： 861-870.

[9]

MARINAKI M， MARINAKIS Y. A hybridization of clonal selection algorithm with iterated local search and variable neighborhood search for the feature selection problem [J]. Memetic Computing， 2015， 7（3）： 181-201.

[10]

SAMADZADEGAN F， NAMIN S R， RAJABI M A. Evaluating the potential of clonal selection optimization algorithm to hyperspectral image feature selection [J]. Key Engineering Materials， 2012， 500（1）： 799-805.

[11]

YEN S， LEE Y. Clusterbased undersampling approaches for imbalanced data distributions [J]. Expert Systems with Applications， 2009， 36（3）： 5718-5727.

[12]

SUN Y， KAMEL M S， WONG A K， et al. Costsensitive boosting for classification of imbalanced data [J]. Pattern Recognition， 2007， 40（12）： 3358-3378.

[13]

HONG X， CHEN S， HARRIS C J. A kernelbased twoclass classifier for imbalanced data sets [J]. IEEE Transactions on Neural Networks， 2007， 18（1）： 28-41.

[14]

卢晓勇，陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用，2016，36（3）：731-734.（LU X Y， CHEN M S. Web spam detection based on random forest and undersampling ensemble [J]. Journal of Computer Applications， 2016， 36（3）： 731-734.）

[15]

FAWCETT T. An introduction to ROC analysis [J]. Pattern Recognition Letters， 2006， 27（8）： 861-874.

[16]

DAVIS J， GOADRICH M. The relationship between precisionrecall and ROC curves [C]// ICML 2006： Proceedings of the 23rd International Conference on Machine Learning. New York： ACM， 2006： 233-240.

[17]

DE CASTRO L N， VON ZUBEN F J. Learning and optimization using the clonal selection principle [J]. IEEE Transactions on Evolutionary Computation， 2002， 6（3）： 239-251.

7、增加参考文献：

[18] Scarselli F， Tsoi A C， Hagenbuchner M， et al. Solving graph data issues using a layered architecture approach with applications to web spam detection[J]. Neural Networks， 2013， 48： 78-90.

[18]

SCARSELLI F， TSOI A C， HAGENBUCHNER M， et al. Solving graph data issues using a layered architecture approach with applications to Web spam detection [J]. Neural Networks， 2013， 48： 78-90.无期

基于免疫克隆特征选择和欠采样集成的垃圾网页检测

优秀范文

精选范文