首页 > 范文大全 > 正文

电子政务的Web技术应用分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇电子政务的Web技术应用分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

电子政务,就是政府机构应用现代信息和通信技术,将管理和服务通过网络技术进行集成,在互联网上实现政府组织结构和工作流程的优化重组,超越时间和空间及部门之间的分隔限制,向社会提供优质和全方位的、规范而透明的、符合国际水准的管理和服务[1]。目前,随着我国电子政务及信息化相关政策、方案的出台,各级政府部门的电子政务建设取得了较大进展,政府门户网站已经普及。在电子政务高速发展的过程中,累计了大量的历史信息,如何提炼、处理这些信息,挖掘信息中隐含的关联规则,抽取用户感兴趣的模式,进而优化电子政务网站的框架结构,满足用户的个性化信息需求,为政府政策的制定、颁布提供一定的决策支持,已成为电子政务发展研究的热点问题。web挖掘以数据挖掘技术为基础,为电子政务信息的挖掘和处理提供了一个新途径。本文在深入研究Web挖掘技术的基础上,探讨其在电子政务中的相关应用,并结合政府工作的特点,构造了Web挖掘系统模型,实现了对电子政务信息的深度挖掘和对用户的个性化服务。

1Web挖掘概述

1.1数据挖掘与Web挖掘

数据挖掘是数据库中知识发现(KDD)的过程,它从海量的、有噪声的、不清晰的、不完整的现实数据中,提取用户无法预知的、蕴含在数据中的、有使用价值的信息和知识。Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从Web文件和Web活动中筛选感兴趣的、有使用价值的模式和隐藏信息,覆盖计算机语言学、Web信息技术、数据库技术、人工智能、神经网络、统计学、信息学等多个领域,是一项综合技术[2]。

1.2Web挖掘的核心问题

Web挖掘可以处理传统关系数据库、数据仓库、事务数据库中结构化的数据,但更多的是针对高度非结构化的文本数据库(WWW上的网页)、半结构化的文本数据库(E-mail和HTML/XML网页)和多媒体数据库(图像、音频、视频),为了发现这些复合对象蕴涵的一般性描述特征,Web挖掘必须解决如下问题。

1)异构的数据源集成和查询

Web网站数量庞大,各个站点的信息和组织都存在差异,若把每个网站都看做独立的数据源,则数据源之间存在较大的异构性。因此,Web挖掘首先需要解决的问题就是如何将这些异构站点的数据集成到一个统一的视图上。异构数据源的集成为后续数据的分析和处理提供了基础平台。在数据的处理中需要快速定位、获取相关数据,因此还需要提供数据查询功能。

2)数据模型的定义

Web数据大多是无结构或半结构化的,没有对应的规则数据模型表述,不同站点的数据采用不同的设计方法,独立性较强,而且数据本身也是动态变化的,其自述性较强。如何定义无结构化和半结构化的数据模型,提炼无结构化和半结构化模型抽取技术,是解决问题的关键。

3)应对动态变化的应用坏境

第一,Web用户的兴趣、知识背景、以及访问目的有差异,难以对其进行预测。

第二,Web信息内容瞬息万变,网页中的动态链接也不断发生变化,页面的随机存取同样变化频繁。

第三,高噪音的Web数据环境也是一个重要的因素,在一个Web网站中与目标挖掘主题相关的信息是极少的。如何在动态变化的Web环境中进行数据挖掘,是Web挖掘需要解决的重要问题。

4)知识发现的智能性和学习机制

众多用户无法清楚地、深刻地认识挖掘主题,其目标也是模糊的,不确定的。如何能够在挖掘过程中定位、发现用户的个人喜好,明确用户的目标,是一个重要问题。解决问题的关键是设计拥有较高智能性和学习机制的Web挖掘知识发现系统,把知识发现的结果清楚地描述出来。

5)应对高度综合的网络信息内容

Web信息涵盖各个学科门类,内容丰富,综合性强。在进行Web挖掘的过程中,不仅需要使用各种相关的挖掘技术,还需要学习各个应用领域的专业知识,才能更加有效地发现知识。

1.3Web挖掘的分类[3]

1)Web内容挖掘Web内容挖掘的对象包括Web页面中的文本、图象、音频、视频、多媒体和其他各种类型的数据。目前大多数研究集中在如何对网站上的文本和多媒体数据进行分类以提高数据挖掘的有效性。

2)Web结构挖掘Web结构挖掘就是挖掘Web潜在的链接结构模式。通过分析不同网页之间的超链接结构,网页内部的可以用HTML,XML表示成的树形结构,以及文档URL中的目录路径结构等,建立Web自身的链接结构模式。在网页分类时可以采用该链接结构模式,而且有助于发现各种网页间的相似程度和关联程度。

3)Web使用挖掘

Web使用挖掘是挖掘Web服务器日志获取的信息来预测用户浏览行为的技术。个人浏览Web服务器时,服务器会产生三种类型的日志文件:Serverlogs,Errorlogs,Cookielogs。Web使用挖掘对这三种日志文件进行挖掘,从而发现用户的访问模式、相似用户群体、频繁路径等知识。

2Web挖掘在电子政务中的应用

在当今社会积极倡导的“信息高速公路”五大领域中,电子政务处于首位,政府的信息化建设是其他领域信息化建设的基础,是重中之重。目前,电子政务的建设内容包括电子贸易、信息服务、政府部门重构、电子化政府、群众参与政府。将Web挖掘技术应用到电子政务建设工作的各个方面,将对政府信息化水平的提高起到积极的推动作用,进而对社会信息化的快速发展起到促进作用。Web挖掘技术的具体应用主要包括如下几个方面:

1)政府电子贸易运用

Web使用挖掘技术,根据国家或类型对日志文件所收集到的域名数据进行分类分析;通过评价用户浏览某种信息资源的时间,预测用户的兴趣;这种借助应用聚类分析来识别用户的访问动机和访问趋势的技术已经在政府电子贸易中广泛应用。

2)政府网站开发运用

Web内容挖掘技术,对网站信息进行自动归类处理,使网站信息的组织具备层次结构;对网站内容进行聚类分析,实现文本内容类别的自动划分,提高文本内容定位检索和分类浏览的效率[4]。除此之外,通过挖掘用户的访问记录,锁定用户的个性化需求,为不同的用户定制不同的信息,提供个性化服务,从而扩展用户群的规模。

3)搜索引擎的优化

在实现网络信息定位检索和分类浏览的基础之上,运用Web使用挖掘技术,分析用户的目标访问历史日志,扩展提问,提升检索质量。与此同时,进一步完善Web挖掘中有关关键词加权算法的描述,提高算法的效率,提高历史访问信息的标识的精准度,对搜索引擎的检索能力进行优化提高。

4)数据分析和决策支持

Web挖掘对电子政务系统数据库中大量业务数据进行清理、转换、分析,并对非结构化和半结构化数据进行模型化处理。从中发现和提取隐含的关联规则、模式等知识,充分利用这些知识和信息辅助政府部门工作,为政府重大政策、法规的制定提供决策支持。例如,可以在大量历史经济数据的基础上进行Web挖掘,初步判定未来经济的发展形势,进而对政府有针对性的制定宏观经济调控政策起到积极的推动作用;通过对电子政务网站中用户历史访问信息的分析、挖掘,找出用户在网站中访问频次高的反馈模块,根据用户的反馈知识,政府可以找出某些服务工作的不足,进而采取更加科学、有效的措施提高工作效率。

5)节省成本和快速响应

以政府各个部门的历史财务数据为对象,运用Web挖掘技术,分析、挖掘财务数据中隐含的信息,为制定财务开支的控制方案提供依据,从而有效控制成本。以历史灾难事件和环境因素为Web挖掘的对象,综合使用聚类分析、回归预测和关联分析技术,分析与灾难发生相关联的各种外部因素的影响强度、预测灾难未来的发展趋势,从而及早制定灾难应对与防范措施,提高了政府应对各类突发性事件的快速响应能力。

3Web挖掘系统设计

本文基于Web使用挖掘技术,设计Web挖掘系统,在服务器端完成Web日志挖掘、个性化页面回显和预送页面集,为不同兴趣的用户提供个性化的网页。系统结构图如图1示。

3.1数据预处理模块

该模块以Web服务器中的日志为操作对象,读取并分析某个时间段中的日志记录,将Web用户分成不同类别,进而把分类用户的会话识别出来。其主要步骤为:建立日志表、数据清理、用户识别、会话识别和路径补充。在用户识别分类阶段通常使用聚类分析方法。

3.2访问模式挖掘模块

该模块以预处理模块中得到的分类用户及用户会话为数据来源,发现、获取Web用户访问模式,并进行分析筛选,最后作为规则存入用户访问模式库中。其最终目的是发现Web的频繁访问路径,实现思路为:在用户聚类的基础上,首先识别每一类用户访问事务中的最大向前访问路径,然后将发现频繁访问路径模式的问题映射成在所有的最大向前访问路径中发现频繁发生的连续子序列的问题。

目前,常用的算法为Apriori类算法,GSP算法,SPADE算法。本文在GSP算法的基础上,引入了基于完全图和矩阵结构的候选序列生成算法,得到一个综合改造算法。算法中输入为数据库B、最小支持度min_s,输出为数据库B中的频繁项集M,方法体如下:inti=2;M1=search_frequent_1•itemsets(B);//序列模式M1while(Mi-1≠?){Pi=cgm(Mi-1,min_s);//基于完全图和矩阵结构的候选序列生成算法foreachitemr∈B//逐项扫描数据库D{P1=subset(Pi,r);//找出候选子集foreachcandidatep∈P1p.number++;}Mi={c∈Pi|p.number>=min_s}i++;}returnM=UkMi;

3.3系统智能推荐模块

该模块实时监测用户的行为,可以使用预测算法进一步预测用户即将发生的访问行为。整个工作流程为:确定当前用户行为是获取到的用户当前访问页面,然后引用模式库,以访问模式挖掘模块中得到的频繁访问路径为根据,在线预测用户下一步可能访问到的目标Web页面,并将这些预测的页面预先传送到Web用户浏览器的高速缓存中,与此同时,将预送页面的标题及URL组合成一个页面发送到测览器中,供用户选择[5]。

3.4关联规则挖掘模块

该模块将分类用户及用户会话作为输入,挖掘用户访问页面的内在关联规则存入关联规则模式库。挖掘算法采用Con-H-Mine项目约束算法。该算法以数据库中的用户历史浏览信息为处理对象,综合考虑指定的置信度阀值和支持度,从而生成对应的关联规则。在分析、挖掘时可以根据网站组织结构的设计原则,设置相应的约束条件把那些无法共存的主题过滤掉。这些在挖掘中生成的关联规则应该存储在数据库中,为所有的用户建立相应的规则信息,定期使用关联规则生成程序更新各个用户的关联规则表。

3.5个性化回显模块

该模块实时监听用户的访问,根据用户当前点击的主题,从模式库中搜索与当前用户点击的主题匹配度最大的关联规则信息,以主题层次树表为依据,对需要显示的主题做出准确的判断,进而动态生成相关页面结构及内容并返回进行显示。

4结论

本文提出的Web挖掘系统,解决了传统电子政务系统的弊端,使网站能够预测用户下一步的访问行为,根据用户的浏览行为动态调整页面内容,降低了用户为获取信息而付出的代价。而且能深入分析用户所关注的热点页面中的内容,将及时、准确、可靠的信息来源提供给政府决策者。今后,将继续深入研究各类数据挖掘技术,将智能化方案引入系统,应用当今比较热门的神经网络方法,遗传算法等,完善和改进本文提出的Web挖掘系统,从而为电子政务的发展起到积极的推动作用。