开篇:润墨网以专业的文秘视角,为您筛选了一篇基于数据挖掘的网络信息安全策略研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【 摘 要 】 随着互联网技术的不断发展,云计算技术的不断得到运用,我们已经步入了大数据的时代。数据挖掘技术的产生使得人们对于数据的处理分析能力上了一个新的台阶。本文研究了数据挖掘的流程及主要任务,分析了网络信息安全的各项技术,提出了基于数据挖掘的网络信息安全策略,改进了网络信息安全策略中对于大数据量的处理困难问题。
【 关键词 】 数据挖掘;网络信息安全;策略
The Research on the Network Information Security Policy Based on Data Mining
Cao Zi-xi Lu Qi Xue Zhi
(Shanghai Jiao Tong University Shanghai 200240)
【 Abstract 】 With the continuous development of the internet technology, the continuous application of the Cloud Computing, the Big Data era has arrived. The Data Mining technology has brought the analysis capabilities of the data processing to a new level. In this article we studied the Data Mining and the technologies of the network information security. We proposed a network information security policy based on data mining, and improved the difficult issues of dealing with the large amount of data in network information security policy.
【 Keywords 】 dating mining; network information security;tactics
1 引言
近年来,网络技术的飞速发展,互联网上的数据以每天数千万条的速度迅速增长,数据的产生、传输、存储、访问和处理方式都发生了翻天覆地的变化。在这样的一个大背景下,数据挖掘孕育而生。另一方面,各种网络安全检测技术、设备和产品会生成大量的关于网络安全及流量的检测数据,单单依靠传统人工处理以及简单查询统计方法的数据处理模式已经无法适应新时代的需要了,如何从海量网络信息安全检测数据中挖掘发现有价值的信息,需要在网络信息安全策略中运用到数据挖掘的技术。
2 数据挖掘的相关概念
2.1 数据挖掘的定义
数据挖掘就是在一些没有规律、异构结构并且熟练庞大的数据中,通过相关的计算机方法及算法,提炼出具有不确定和未知性的信息的一种方法。数据挖掘的数据源应该是大量且真实的,所寻找出的信息应该是对我们有用的、具有价值的。理论上来说,数据量越大、越随机,数据挖掘所得到的结果就越准确、越具有代表性、越有价值,这就对数据挖掘的相关算法与技术的效率提出了很高的要求。数据挖掘是一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。数据挖掘是将一些离散的、底层的、无序的大规模数据利用相关的技术手段提升到有序的、可接受的、有价值的知识,从而为决策提供帮助的一个过程。具体的说,数据挖掘是通过对大规模的海量数据进行分析,从中找出一些数据间的内在规律与联系。具体过程包括了数据准备、信息挖掘和结果表达三个阶段。
2.2 数据挖掘的主要任务
数据挖掘的主要任务包括有监督学习(Supervised Learning)、关联分析或频繁模式分析(Frequent Pattern Analysis)、聚类分析(Clustering Analysis)、异常检测(Anomaly Detection)等。
有监督学习包括两种形式:分类(Classification)和预测(Prediction),是指根据已知样本的大小、类型来预测新到样本。关联分析或频繁模式分析指的是找到某一事件发生时,另一事件也会发生的这样一种规律性的联系模式。聚类分析指的是将找出所有数据的一些内在规律及特征,并且按照这些特征将数据源划分成若干个数据簇。异常检测通过建立一个数据样本的范本,并将数据源中的数据与其进行比对分析,找出里面存在的异常样本。
3 网络信息安全的相关概念
3.1 网络信息安全的概念
网络信息安全问题的解决方案包括数据挖掘信息安全技术的应用和数据挖掘信息的安全的管理。管理是指根据事物发展的客观规律,通过综合运用人力资源和其他相关的资源,以便有效地实现组织目标的过程,是指在集体活动中,为了完成一定的任务,或者实现一个具体目标,针对特定的对象,遵循既定的原则,依照完善的程序,使用适当的方法,所进行的计划、组织、指挥、协调和控制的活动。比如,在网络安全控制方面,防火墙技术已被广泛应用,为了更好地发挥防火墙的安全保护作用,就必须考虑如何设置防火墙的安全策略,并对它的物理保护和访问控制进行设置。
3.2 网络信息安全的相关技术
3.2.1爬虫技术
Web 爬虫(Crawler)通常也被称为机器人(Robot)或者蜘蛛(Spider),它是一个能够自动下载网页的程序。互联网上有数以万计的网页,这些网页存在于分布在全球各地的各个服务器上。用户可以通过网页链接进行各个网页直接的切换和浏览,而爬虫正是模仿人的行为,将多个站点或者网页下载或存取,然后交给数据处理模块。
3.2.2结构化数据抽取
Web信息收取指的是从一个网页中分析目标信息。通常包括两个问题,第一个是从自然语言文本中抽取信息,第二个就是从网页的结构化数据中抽取信息。我们称抽取这种数据的程序为包装器(Wrapper),包装器有三种方法,分别是手工方法、包装器归纳、自动抽取。
3.2.3规则引擎技术
一旦数据获取了,我们就要对其进行处理和分析。常用的基于 Python 的规则引擎有几种。PyKE 是一个基于知识的专家系统,采用类似于 Prolog 的语言规范。Prolog 是一种逻辑编程语言,广泛应用于人工智能领域。Pychinko 是一个可以处理语义网的规则引擎,它可以用 RDF 来定义。Intellect 是一个基于领域描述语言(Domain Specific Language,DSL)的规则引擎,可以定义一些规则表达式,来监测网络数据。规则引擎指的是一个创建、存储和管理规则,然后执行规则并推断出其它事实的应用程序。其中的规则主要是指企业或商务业务逻辑、法律条款等。在规则引擎发展的过程中,Rete 算法和 Prolog 语言是两个重要的理论分支,多数规则引擎都是基于以上二者扩展而来的。在工业活动铸造中,发展时间较长、应用广泛的两个体系是 Clips 体系和 Prolog 体系。
4 基于数据挖掘的网络信息安全策略
4.1 安全的网络环境
安全的网络环境包括系统的安全性、防病毒和网络入侵检测、审计分析、网络备份和灾难的恢复等。具体措施如下:隔离和访问控制技术,包括物理和逻辑的隔离,可信与不可信网络的隔离,只允许有授权的用户访问网络资源;采用反病毒技术,病毒已经严重威胁到了网络的安全,它的威胁和破坏性是很难用数字估量的,建立病毒预警、病毒防护和应急机制,就显得尤其必要;网络入侵检测技术会及时对非法入侵者及恶意破坏者建立预警机制,并定期对网络系统进行安全性分析,发现并修正漏洞;分析审计,记录用户使用过程中的计算机网络系统,它不仅能够确定是谁访问了系统,还能记录系统的使用状态,确定是否有网络攻击,审计数据挖掘信息是非常重要的;网络备份和灾难恢复可以确保在最短的时间内使受到破坏的系统恢复可用。
4.2 保证数据挖掘信息安全的策略
安全的数据挖掘信息指数据挖掘信息的存储安全、传输安全和使用安全。数据挖掘信息的物理完整性,逻辑完整性和保密性组成了数据挖掘信息的存储安全;并要通过数据传输加密技术、数据完整性技术和防抵赖性技术来保证数据挖掘信息传输的安全;数据挖掘信息的使用安全是指,为防止非授权主体擅自使用资源,必须对网络中的主体进行验证。
4.3 基于数据挖掘的网络安全数据分析策略
4.3.1关联性分析
关联分析模型的含义是通过对攻击行为要素的归并和组合,结合数据挖掘相关技术,体现宏观网络上最热门的攻击行为态势。一次攻击行为中,(源地址、目的地址、攻击类型)三要素体现了攻击的本质,三要素任意指定和组合,都反应了有意义的网络攻击态势。
4.3.2 事件预测机制
事件预测机制是通过对某一事件的发展趋势进行跟踪观测,运用数据挖掘聚类算法,判断其是否会成为大规模网络事件的模型。对于大规模的网络事件,其最具代表性的特点并不是事件发生的次数,而是其扩散趋势。例如连续观测到涉及同一类木马病毒事件的IP地址数量急剧上升,可能就是一次木马网络攻击事件。
4.3.3 可控数量预测模型
可控数量预测模型是通过观察事件中受控主机状态增长数量,对事件的感染能力做出判断。受控主机状态增长指的是之前未检测到发出某类攻击的主机,通过检测被发现后的状态变化增长。例如对于某种病毒,若以前未检测到主机X受到过感染,但是在观测周期内发现了主机X已经被感染了病毒,那么对于该病毒而言,主机X就是其受控主机增长状态。
4.3.4分析处理模型
分析处理模型的作用在于对运营商的事件处理反馈进行分析,判断其对被控主机的处理能力。该模型从各运营商的被控主机、已处理主机、未处理主机以及处理效率等各方面进行综合评估,由此来分析判断运营商对其辖区内的被控主机处理能力。
4.3.5网络安全数据分析模型
网络安全数据分析模型用于观测网络特征事件的数量,判断是否存在异常。分为学习阶段和实时检测阶段两个阶段运行。学习阶段可以建立事件的判断标准,等学习阶段满足特定条件后便进入实时检测阶段。
学习阶段,先由用户给定各类安全事件的定义,统计学习阶段事件内每个时间间隔中安全事件的数量。然后以小时计数,统计单位时间内安全事件的平均数和方差,记平均数为x,方差为?滓。
实时检测阶段首次按统计当前时间间隔内各类安全事件的数量xi,再判断各安全事件数量是否异常,
xi-x
?滓0?艽xi-x
2σ0?艽xi-x
xi-x?艹3?滓0 重度异常的安全事件数量。
其中的?滓0为判断标准,在模型建立时进行配置,可以根据不同情况,重新调整该参数。最后将各类安全事件数量异常的最高值,作为当前时间间隔的安全事件数量指标值。
5 结束语
当今社会已经进入云计算和大数据时代,计算机网络的应用已经深入到人们生活和生产的各个领域,但随着计算机信息的价值和重要性越来越高,不法分子入侵网络的手段也不断地翻新,使得传统的网络安全防御技术难以应对。将数据挖掘技术应用于网络信息安全策略中,通过聚类挖掘等方法,能够发现一些潜在的威胁与漏洞,更使得该技术具有了良好的发展前景。
参考文献
[1] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.11.
[2] Han J., Kamber M., 范明(译).数据挖掘: 概念与技术 [M].北京: 机械工业出版社,2001.
[3] 中华人民共和国科学技术部火炬中心“推进我国软件企业工509000质量体系认证的研究”课题组.软件企业工509000质量体系的建立和认证.清华大学出版社,2011.
[4] 刘占全.网络管理与防火墙技术.人民邮电出版社,2010.
[5] 樊成丰、林东.网络数据挖掘信息安全&PGP加密.清华大学出版社,2010.
[6] 斯帝芬P罗宾斯.管理学.中国人民大学出版社,2010.
[7] 张健.防毒杀毒一防杀计算机病毒自学教程.电子工业出版社,2010.
[8] 舒南飞.网络安全态势评估和预测的新进展.信息技术与应用学术会议论文, 2009: 56-57.
作者简介:
曹子玺(1984-),男,上海交通大学硕士研究生在读;主要研究方向和研究领域:网络信息安全。