特征提取技术中噪声过滤算法研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇特征提取技术中噪声过滤算法研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：网络攻击特征提取技术层出不穷，是当前网络信息安全问题研究的热点。分析了当前各种网络攻击特征提取技术，重点阐述了特征提取技术的理想步骤、当前发展状态以及存在的问题；在总结相关算法的基础上，提出了一种噪声过滤算法以优化特征的提取；通过深入分析和综合验证，证明此算法有一定的可行性及应用价值。

关键词：网络攻击；特征提取；过滤；算法

中图分类号：TP311.134.3 文献标志码：A 文章编号：1006-8228（2014）04-43-02

Abstract： The network attack feature extraction techniques are various and develop quickly， It becomes a hot research topic. The current variety of feature extraction techniques is analyzed. The ideal step of feature extraction technology， the current development status and the exiting problems are mainly discussed. Based on having summarized relative algorithms， a new noise filtering algorithm to optimize feature extraction is introduced. The analysis result after comprehensive validation shows that the algorithm has certain feasibility and application value.

Key words： network attacks； feature extraction； filtration； algorithm

0 引言

目前，网络攻击防御技术的研究有很多，攻击特征提取技术就是研究入侵检测技术的一大热门方向，早在2003年Kreibich等提出了第一个攻击特征自动提取系统Honeycombt[1]。

攻击特征自动提取技术其涵义很清楚，主要体现的问题是特征分析与自动提取，其中自动提取又分为两步完成：攻击发现和特征提取。

因为攻击的不确定性，所以攻击发现是目前网络攻击中处理较为困难的问题，这对后面的特征提取造成了困难，只有解决攻击发现，特征提取才有价值，否则提取的特征没有任何意义和价值。

在很多的攻击防护系统中，将攻击特征作为主核心问题研究，通常情况下，攻击特征提取系统发现新攻击的能力强，可以缩短样本捕获时间，但是这些系统中对样本捕获时间也受攻击本身属性的影响，例如传播越快的蠕虫越容易被捕获到样本。而高效的特征提取方法可以有效减少特征提取时间，因此，目前研究的重心是如何设计有效而计算开销小的特征提取方法，减少特征提取时间[2]。

序列比对技术是参照生物序列引用特征提取技术，在生物界的研究中较为广泛，这种技术是将几条序列通过比较和适当的空位插入，构建一个使得相似性度量函数S（A）达到最大的比对序列A，从而达到发现序列之间的相似性和能辨别序列的差异两个目的。

1 攻击特征提取基本步骤

目前，按照信息处理流程，一个比较完善的攻击特征提取技术应该由如下步骤完成，即：攻击样本获取、去除噪声、攻击聚类、特征提取、特征负选择、特征正选择、特征归并和特征应用八个组成[3]。而传统的攻击特征提取技术基本上都不考虑噪声过滤问题。因此，对特征提取精确度的问题一直是研究的瓶颈。

攻击样本获取：完成从大量的网络数据中分辨出可疑（即可能是攻击）的数据流，同时完成报文碎片重组、TCP流重组等。

去除噪声：尽可能去除可疑数据流库中那些不是攻击样本的数据流（称之为噪声），从而提高可疑数据流库中攻击样本的纯度。

攻击聚类：由于可疑数据流库中的样本可能来自于多个攻击，攻击聚类部件的作用是将来自同一攻击的数据流聚为一类，从而利于下一步的特征提取。

特征提取：是从可疑数据流中提取出攻击特征。

特征负选择：从候选特征库中删除那些可能会导致严重误报的规则。

特征正选择：从候选规则库中选择可信度高、检测率高的特征，将之提交给IDS特征归并部件.该部件的作用是去除冗余的特征。

特征应用：是将攻击特征转化为IDS的检测规则，并应用到IDS中用于检测。

网络攻击特征提取技术获取的样本不外乎有三种情况：一是获取的某个新攻击数据流，这个数据流本身就不含噪声；二是获取的新攻击中含有噪声；三是获取的样本呈混合状，可能还含有噪声，甚至可能含有攻击者恶意产生的样本。以上情况中第一种是最理想的，这种情况在现代网络攻击防范技术中基本上不存在，第二、三种是较为麻烦的，这种情况下除噪环节就显得尤为重要。

2 算法描述

现在噪声消除应用比较多，但应用最广泛的是图像噪声去除，以及图像的获取、传输与脉冲噪声处理等[4]。在网络攻击取样中进行噪声去除的研究已取得了一定的成果，如文献[3，5]，作者就在特征提取技术中引入了噪声去除的算法研究。我们基于作者提出的思想，对其进行了一定的改进。

2.1 算法基本思想

该噪声消除算法的基本思想是：把攻击样本获取样本作为[m*n]的一矩阵，然后逐步对矩阵进行扫描。

首先判断哪一部分字符（矩阵中列）可能是目标攻击中的不变字节。具体的做法是，将那些在获取结果的同一列中出现频率超过一定值的字符当成不变字节，这个值假设为x；然后，在这个不变字节集合范围内，找到不变字节数最少的x个序列作为噪声。

这项工作相对麻烦一些，要求在对多序列进行配对时，总体目标是得到全局一致性最高的解，也就是使尽可能多的相同字符都能够匹配（对齐）在同一列中。在实际应用中，少量的噪声并不会影响全局结果，也就不会影响目标攻击样本中大多数特征片段的对齐。但如果能对噪声进行过滤处理，那么会使特征发现的精确度上一个很高的台阶。

2.2 算法实现

给定x（x>=3）个序列，我们定义噪声容忍度小于1，并且在这x个序列中选择[x，θ]（这里假设θ为容忍度）个序列作为噪声而过滤掉。剩下的x-[x，θ]个序列将被当作样本，然后再利用这些样本输出最终的攻击特征。

算法描述：

标准输入：将x个序列逐步输入A，虚拟作（x×N）的矩阵进行操作，以此作为S=（s1，s2，…，sk）中x个序列的联配结果。

理想输出：通过分析将噪声作为保留值集合N，使得序列更纯静；

这里需要一个假设参数值，即噪声容忍度θ，0≤θ≤l；

具体算法主要分三步进行，具体描述如下：

step1：确定变形攻击中的不变字节

for each i∈{1，2…，N} do

for each c∈∑do

ni，c第i列中值为c的字符数目；

fi，cni，c/k

end；

end

for each i∈{1，2…，N} do

Fi；

if Fi>=1-θ then

Iic其中c是使得Fi=fi，c的字符；

else Iiφ *Ii不是一个不变字节

end

step2：确定噪声

for each si∈S do *统计这个序列中包含了多少个不变字节

invbyt（s）满足Ai，j=Ii的Ai，j[1，N]的数目；

end

step3：噪声入列

选择包含不变字节数最少的[x，θ]个序列作为噪声

for i=1 to [x，θ] do

si是满足下列条件的一个序列：si∈S/N，并且对于任何其他的s/∈S/N

invbyt（si）

NN∪{si}；

end

step4. return N；

2.3 算法分析

通过上述算法描述可知，此算法的关键是噪声容忍度θ的选取，而为θ指定一个固定值可能是不恰当的。如果这个值太小，一些噪声可能不会被过滤掉，从而影响最后提取的噪声的质量；相反，如果这个值本身不太大，但是相对于序列（样本加噪声）的总数来说太大，便会发生一些样本被当作噪声被过滤掉而剩下的样本数量太少的情况，使得利用剩下的样本产生的特征不够准确。

该算法主要具有如下优点：①特征提取的准确性优于或接近于其他方法；②具有良好的抗噪能力；③该方法产生的正则表达式特征可以直接应用于现有主流的IDS时间复杂度分析。从上述算法可以看出此算法的2*O（N2L2）总体来讲有点偏高，但算法有良好的可并行性，能提高该方法的性能，减少空间开销，值得推荐应用。

3 结束语

对于网络攻击特征提取方法而言，近几年的研究得到了很多突出的成果，这些成果仅仅围绕攻击发现和特征提取两个核心问题，通常认为只要攻击样本质量高并能够正确聚类，便可以提取出高质量的特征。因此，研究的关键在于如何获得高质量的攻击样本，如何得出准确的特征信息而不产生误报信息。对于特征信息去噪问题的研究，目前已能开发出在线部署实时工作，提取特征准确，且特征能够自动应用的实用攻击特征提取系统，但是在很多细节问题上仍然遇到许多困难，需要进一步深入研究。

参考文献：

[1] KREIBICH C.CROWCROFT J Honeycomb-creating intrusion detection signatures using honeypots，2003.

[2] 秦拯，尹颜，陈飞扬等.基于序列比对的攻击特征自动提取方法[J].湖南大学学报（自然科学版），2008.6：77-81

[3] 唐勇，卢锡城，王勇军.攻击特征自动提取技术综述[J].通信学报，2009：296-105

[4] 耿强.基于细节保存的图像深度脉冲噪声去除算法[J].科技通报，2012.12：217-222

[5] 唐勇.基于网络的攻击特征自动提取技术研究[D].国防科技大学，2008.

特征提取技术中噪声过滤算法研究

优秀范文