首页 > 范文大全 > 正文

Web挖掘在电子政务中的应用研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇Web挖掘在电子政务中的应用研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:介绍了web挖掘的基本知识,分析了电子政务中Web挖掘应用的必要性以及主要应用领域,优化了适用于电子政务环境下的关联规则挖掘算法E-GM,通过数据试验验证了该算法的有效性,并通过实例证实了其在政府电子政务门户网站规划与建设中的指导应用。

关键词:Web挖掘电子政务关联规则政府门户网站

一、引言

目前,Web挖掘已成为数据挖掘研究中的一个重要方面,而且已成功应用到银行、电信、保险、网络零售、电子商务等很多领域。随着网络社会的到来,政府的管理和服务模式不断变化,电子政务作为一种新型的政府工作形式近几年取得了蓬勃的发展,其中加强政务信息资源的开发与利用成为当前的迫切任务[1]。

本文讨论了Web挖掘在电子政务中的主要应用领域,并就关联规则Web挖掘算法进行了优化分析,对其在电子政务门户网站规划与建设的实践中进行了应用性的实证研究。

二、Web挖掘的基本知识

⒈Web挖掘的定义

从形式上看,Web挖掘就是从与WWW相关的资源和行为中抽取主体感兴趣的、潜在的有用模式和隐含的信息或知识。Web挖掘覆盖了多个研究领域,包括Web技术、数据库技术、数据挖掘、计算机语言学、信息获取技术、统计学、人工智能等[2]。

从更为一般的角度出发,对Web挖掘可以作如下形式化的定义[3]:

Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射f:Cp。

⒉Web挖掘的主要类型

Web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容挖掘[4]。

⑴Web结构挖掘

Web结构挖掘主要是指挖掘Web上的链接结构,它有广泛的应用价值。例如,通过Web页面间的链接信息可以识别出权威页面、安全隐患(非法链接)等。

⑵Web使用挖掘

Web使用挖掘主要是指对Web上的Log日志记录的挖掘。Web上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。分析和发现Log日志中蕴藏的规律,可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。

⑶Web内容挖掘

Web内容挖掘主要是对包含文本、声音、图片等的文档信息,以及Web链接结构信息的挖掘。其中,基于关键词的Web内容分析技术已经在文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域得到广泛的研究和应用。

⒊Web挖掘的复杂性分析

面向Web的数据挖掘要比面向数据库和数据仓库的数据挖掘要复杂得多。这主要是因为Web上的数据结构是非常复杂的,Web挖掘必须面对下面一些关键问题[5-7]。

⑴海量、异构的数据源环境

Web网站上的各种数据信息构成了一个非常庞大、非常复杂的异构数据源。如果要利用这种异构数据源进行数据挖掘,首先,必须要解决站点之间异构数据的集成问题;其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。

⑵半结构化的数据结构

Web上的数据更多是半结构化的。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提,为此,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。

⑶动态变化的应用环境

研究表明,一个Web站点的数据可能只有不超过1%的信息对特定挖掘主题是相关的,这些变数也是Web挖掘必须面对的问题。这些问题主要表现为:首先,Web的信息是频繁变化的,而且这种高变化也体现在页面的动态链接和随机存取上,像新闻、股票等信息是实时更新的;其次,Web上的用户是难以预测的,用户具有不同的知识背景、兴趣以及访问目的;最后,Web上的数据环境是高噪音的。

⑷高度综合的网络信息内容

Web挖掘的研究对象是网络信息。由于网络信息涉及各个学科门类,因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。因此,要注意各种专业领域知识的应用,同时综合利用各种挖掘方法,不断提高知识发现的有效性。

⑸模糊、多样的用户目标

基于网络信息Web挖掘的用户类型较多,用户目的各自不同。许多用户往往对所要挖掘的主题只有模糊的、粗浅的认识,不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

⒋Web挖掘的处理流程

从典型的Web挖掘处理流程(如图1所示)可以看出,该流程主要包括如下几个步骤[8]:

⑴查找资源

查找资源的任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。

⑵信息选择和预处理

该步骤的任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式,甚至是关系表。

⑶模式发现

模式发现自动进行,可以在同一个站点内部或在多个站点之间进行。

⑷知识生成

该步骤验证、解释上一步骤产生的模式,从而产生有一定规则的相关知识。这个过程可以是机器自动完成,也可以是与分析人员通过交互操作来完成。

另外,Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得(Information Retrieval,IR)和信息抽取(Information Extraction,IE)相当重要。信息获得的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。

⒌Web挖掘的应用分析

目前,Web挖掘已经在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web Log挖掘,智能查询,建立MetaWeb数据仓库等;并且已经成功地应用到了银行、电信、网络零售、电子商务、客户关系管理等多个领域。

三、Web挖掘对于电子政务的必要性

电子政务作为一种新型的政府工作形式近几年取得了蓬勃的发展。但是,如何对大量的电子政务信息进行有效的组织利用,从中抽取用户感兴趣的模式,从而改进政府门户网站的结构或为用户提供个性化的服务,已经成为当前电子政务发展必须要解决的问题。这个问题的解决离不开一项重要的技术――Web挖掘技术。

Web挖掘在电子政务中主要用来为政府重大政策出台提供决策支持,例如,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的宏观经济调控政策。再如,在经费拨款申请等类似问题上,容易出现欺诈行为,因此在各级上报的申请单据中,很难确定存在欺诈的单位以及具有欺诈倾向的因素;而利用Web挖掘可以收集相关申报数据,通过数据挖掘分离出导致欺诈和滥用行为的因素,制定规则来标识出最有可能具有欺骗性的记录和经费申请单据,这样有助于审核人员核查欺骗性,而且最大空间地调整经费申请。

另外,政府各部门自动化的实现产生了大量的数据,Web挖掘通过对这些数据进行收集和分析,可获得影响政府部门工作的关键因素,从而为政府部门的决策提供依据,帮助政府部门提高政府信息化的水平,促进整个社会的信息化。

总之,电子政务WEB挖掘是把数据挖掘技术折射到政府部门,使政府部门的内部信息与外部信息进行有效的整合,从而政府部门可以更好、更有效地服务公众。

四、电子政务中Web挖掘应用的主要领域

Web挖掘技术应用在电子政务后,可以为政府重大政策出台提供决策支持,并有助于政府门户网站的优化设计,还可根据挖掘出的用户访问模式对网站的搜索引擎、网站导航和网站地图进行重新规划。具体来讲,其主要应用领域包括以下几个方面[9]:

⒈数据分析和决策支持

电子政务数据挖掘对政务系统中的海量数据进行开采、挖掘和分析,从中识别和抽取隐含的信息,并利用这些信息为政府部门重大政策、法规的制定提供决策依据。如上文所说,通过对网络各种经济资源的挖掘,可以预测未来经济发展的走势,进而制定出相应的宏观经济调控政策;又如通过对政府网站、社会公众网站数据进行收集,然后用数据挖掘方法对其进行挖掘,从中得到对提高政府工作效率有益的知识,进而为政府部门工作人员提供科学、实用的辅助决策支持。

⒉政府门户网站的设计

Web挖掘技术对政府网站内容的设计,主要通过对文本内容的挖掘,来有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;利用聚类技术对网站文本的内容进行自动划分类别,以便于文本内容的分类浏览与检索;同时,还可以结合对用户访问记录的挖掘,把握用户的兴趣,从而有助于开展网站信息服务及个人信息的定制,以吸引更多的用户。

⒊信息检索功能的优化

WEB数据挖掘是目前网络信息检索发展的一个关键,如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索。同时,WEB数据挖掘通过对用户所使用的提问式历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果。另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,可以改善检索效果。

另外,电子政务WEB数据挖掘还能增强政府应对突发事件的快速响应能力,可以提高政府工作的创新能力和人员素质。例如,在灾害预警系统中使用WEB挖掘的关联分析和回归预测技术对历史数据进行分析,可以预测与灾害相关的因素、灾害发生发展的趋势,并制定急救措施及财政支出。

五、电子政务中Web挖掘应用的实例分析

Web挖掘的方法很多,如分类、聚类、决策树、神经网络、统计、粗糙集、关联规则、孤立点检测和分析、机器学习等。其中,挖掘关联规则在分析两个或者多个相关量之间关联性方面应用广泛,是Web挖掘中的常用手段。

为了研究Web挖掘在电子政务中的应用,本文利用布尔的运算方式改进了传统的分层关联规则算法――Multiple-level算法扫描多次数据库及内存空间的问题,优化选取了一种多层次、适用于电子政务环境下的关联规则挖掘算法――E-GMB,并选择了笔者正在研究的“省级政府门户网站规划与建设”项目作为对象,对目前已经存在的一些省级门户网站的结构数据、用法数据和用户数据进行了Web数据挖掘分析。

⒈算法描述

下面的算法1给出了E-GMB算法的简要描述。

算法1:E-GMB算法―电子政务环境下多层次的关联规则挖掘算法(部分)

Input: a database and a user defined minimum support

Output: E-GMB which contains all frequent itemsets

(1)for i form 0 to | ITk-1 |

(2)C[i]:=?k:=1

(3)E-GMB:=?(4)read database initial IT[i,j], TT[i,j], TTC[i,j]

(5)while ITk and TTCk1?(6)count C[i]

(7)if C[i]

(8)eliminate row IT[i], TT[i] and C[i]

(9)generate of frequent itemsets

(10)x:=i+1

(11)for i from 0 to | ITk-1 |

(12)for j from 1 to | ITk |

(13)ITk[i,j]:=ITk[i,j] OR ITk[x,j]

(14)TTk [i,j]:=TTk [i,j] AND TTk [x,j]

(15)count C[i]

(16)if C[i]

(17)eliminate row IT[i], TT[i] and C[i]

(18)k:=k+1

(19)generate of frequent itemaets

⒉实验数据

实验环境采用VISUAL C++设计,考虑通用性,硬件平台使用Celeron 850MHZ、内存512MB,仿真数据库采用IBM Almaden Research Center的synthetic databases,共产生4个仿真数据库T20I4D100K、T20I8D100K、T40I2D100K、T20I4D100K。

在实验中设定参数值为N=1000,L=2000,I=4、8,T=20、40,D=100K。

(其中:D代表原始数据交易纪录;T代表平均交易纪录;I代表平均可能频繁项目集合之项目个数;L代表可能频繁项目集合之项目个数;N代表数据库所包含的项目个数。)

实验结果数据如图2所示。从图2结果可以看出,Multiple-level算法在交易数据库变大时,其所花费的时间也会跟着快速增长,但E-GMB算法并不会随着交易数据库的成长而有太大的影响。

因此,从实验数据中可以得知E-GMB算法的效能比Multiple-level算法还要快。

⒊应用效果

笔者应用该算法对我国中部某省会城市的门户网站的Web行为数据进行了综合挖掘,并结合政府门户网站建设的实际发展需要,对其进行了重新优化设计。

该门户网站优化后,其应用效果得到了很大的提高,用户反映良好。在2006年一家权威部门对我国36家直辖市、省会城市、计划单列市的政府门户网站评比中,该城市的政府门户网站排名与2005年相比,一下子上升了多个名次。

六、结束语

本文介绍了电子政务中应用Web关联规则挖掘的必要性,优化了一种多层关联规则挖掘算法E-GMB。通过实验论证了该算法的有效性,并将该算法具体应用在电子政务门户网站规划建设中。可以认为,Web挖掘在电子政务中有着重要的作用。

笔者认为,今后一段时期,Web挖掘在电子政务中,尤其是在对政府门户网站优化设计方面,以下几个方面非常值得进一步分析和研究。

⑴通过对网络结构的挖掘,规范和重构政府门户网站的规划与建设;

⑵通过对网络用法的挖掘,分析政府网站用户的网络行为和访问习惯,以便提供最佳的个性化推荐优化方案;

⑶通过对网页内容的挖掘,实现政府网站网页的聚类、分类,实现网络信息的分类浏览和快速检索,并提高用户的信息检索速度。

参考文献:

[1]张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15)

[2]王大玲.支持个性化推荐的Web挖掘关键技术的研究[D].沈阳:东北大学信息科学与工程学院,2003

[3]韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414

[4]徐甜,田有贵.数据挖掘在Web中的应用研究[J].福建电脑,2006(9):162-163

[5]陈恩红,徐涌,王煦法.WEB使用挖掘:从WEB数据中发现用户模式[J].计算机科学,2001,28(5):85-88

[6]孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395

[7]王中海.基于Web的数据挖掘――网络挖掘[J].图书馆学刊,2006,28(3):35-36

[8]刘云,刘东苏.基于Web的数据仓库与数据挖掘研究[J].情报理论与实践,2001,24(4):289-290

[9]黄晓斌.网络信息挖掘[M].北京:电子工业出版社,2005

作者简介:

周贺来,男,1973年生,河南安阳人,南开大学商学院信息资源管理系在读博士生,讲师,主要研究方向为信息管理与信息系统、企业信息化、电子政务,已13篇,主编教材12本。

(本文责编:孙晓霞)