首页 > 范文大全 > 正文

Web挖掘在blog空间里的运用

开篇:润墨网以专业的文秘视角,为您筛选了一篇Web挖掘在blog空间里的运用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:web挖掘是目前计算机技术领域中的研究热点,它是现代科学技术相互渗透与融合的必然结果。blog作为一种全新的网络模式,在很大程度上增强了网络信息的开放性,吸引着越来越多的网络用户。首先介绍了 web 数据挖掘的概念,讨论了 web 数据挖掘的种类,随后对Blog, RSS的特征进行了阐述, 最后重点论述了RSS空间里的的数据挖掘。

关键词:Web挖掘;Blog;RSS;XML

中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31245-02

The Application of Web Mining in Blogspace

CUI Lin1,2

(1.School of Computer&Information,Hefei University of Technology,Hefei 230009,China;2.Department of Computer Science and Technology,Suzhou College,Suzhou 234000,China)

Abstract:Web mining is a hot topic in the fields of computer technology now,it is the inevitable result of interaction of all kinds of modern science technology. Blog makes web information more open and useful to a great extent and attracts more and more web users as a novel Internet publication model. This paper firstly introduces the concept of Web mining,discusses the classification of Web mining and narrates the features of Blog and RSS.At last,this paper elaborates web mining in RSS space.

Key words:Web Mining; Blog; RSS; XML

1 引言

随着Interent(因特网)和Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一,Blog除具有一般Web page和Web site所具有的大部分特征外,还具有本身所独有的特征。因此我们应针对Blog自身的特征,来进行数据挖掘,这样才能更好的从Blog系统中提取出真正有价值的知识。

2 Web挖掘

2.1Web挖掘的定义

Web挖掘是一项综合技术,设计Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。从更为一般的角度出发,对Web挖掘可以作如下定义:

Web挖掘就是从大量Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:ξ:CP [1]。

2.2 Web挖掘的分类

Web上信息的多样性决定了Web挖掘任务的多样性,依据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。如图1所示。

图1

2.2.1 Web内容挖掘

Web内容挖掘是指从Web文档内容或其描述中发现和抽取有用知识的过程。Web内容包含了多种多样的信息,这些信息由各种类型的服务和数据源组成,包括WWW、FTP、Telnethe和其他各种通过Web可以访问的应用数据库等。Web内容挖掘的对象包括文本、图像、音频、视频、元数据和其他各种类型的数据等。

2.2.2 Web结构挖掘

Web结构挖掘即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。Web结构挖掘最著名的算法是HITS算法和PageRank算法。

2.2.3 Web使用记录挖掘

内容挖掘、结构挖掘的对象是Web上的原始数据, 而Web使用记录挖掘则不同于前两者, 它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 包括服务器的日志记录、服务器日志、浏览器日志、用户会话信息、用户查询记录、用户注册信息、交易信息、Cookie中的信息、鼠标点击等一切用户与站点之间的交互记录。它通过挖掘这些数据来发现用户访问的模式,以找出用户的喜好、满意度,帮助站点管理者做出决策,增强站点的服务竞争力。

3 Blog(博客)技术介绍

3.1 Blog的基本概念

Blog,是Weblog的简称。Weblog,是Web和log的合成词。Web,指WorldWideWeb;Log,原义是“航海日志”,后指任何类型的流水记录。Weblog是在网络上的一种流水记录形式,所以也称为“网络日志”, 在大陆音译常为“博客” [2]。Blogger或Weblogger,是指习惯于日常记录并使用Weblog工具的人。Blog最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具,它以其独特的网络沟通方式在众多领域得到迅猛发展

Blog不是一个高深的新技术,而是网络技术更好地服务于人的一个应用层面的创新,它以“零编辑、零技术、零成本、零形式” 的特点迅速得到推广。用Blog时不受技术、形式和理念的约束,会打字,就会Blog,就像使用电子邮件那样简单。页面形态很像个人Web网站,可以免费申请,它通常是由简短且经常更新的帖子所构成,这些张贴的文章叫作posts,都按照年份和日期的倒序排列,不需要专门网站维护,点击提交就能刷新内容,只要专注于网站内容的建设即可。它通过网络留言、引用跟踪(Trackback)等机制将用户聚集成一个个虚拟的网络群体,并通过RSS技术,让感兴趣的Blog或新闻网站的更新内容自动汇集到用户桌面。被认为是继E-mail、BBS、ICQ 之后出现的第四种网络交流式。

3.2 Blog的相关技术

Blog由于具有以上特征,吸引了越来越多的人士加入其阵营,但从这种新的网络文化的演变过程中可以看到,是Blog技术的出现使得每个人可以低成本、少维护地创建自己的博客网站。但目前,广大的用户对Blog所提供的技术不了解,甚至闻所未闻,更谈不上使用。可以说没有Blog技术,就没有呈现在大家面前的简单易用的Blog。以下将着重介绍Blog的核心技术RSS和RSS空间里的数据挖掘。

3.2.1 RSS简介和使用现状

RSS是一种用于Web站点之间内容共享的数据交换规范,也叫聚合内容,起源于网景的推技术,是一种基于XML标准的Syndication 技术和在互联网上被广泛采用的内容包装和投递协议,可以是Really Simple Syndication(真正简单的整合)、RDF Site Summary(RDF 站点摘要)、Rich Site Summary(丰富站点摘要)3 个解释的其中一个。是Internet上聚合内容和元数据的一种格式。

Blog的核心思想是实现知识的共享,要充分发挥Blog的作用,就离不开RSS。RSS 的机制可使Blog上作者所写的文章自动更新到读者的计算机中,使阅读日志变得非常容易。支持RSS的Blog软件会在后台产生XML语言代码,该代码通常称为RSS Feed(即反馈),这样读者就不必进入该Blog站点,只需将对方日志的RSS Feed地址加入到RSS阅读器中,订阅某个Blog,从RSS阅读器浏览该日志的内容标题和摘要及更新信息等,然后有选择地从浏览器窗口打开这些日志。

RSS Feed用不同的标签(Tag)来标注。通常由4个主要元素构成:、、和。其中,元素是必需的,元素至少要出现一次。< textinput>和< image>元素是可选的,是否使用要视具体情况而定。元素主要包含以下子元素: < title>、、、< image>、、。一个RSS feed的基本语法如下:

< rss version = "2 .0" >

< description >

< pubdate>

[3]

3.2.2 RSS与数据挖掘

可见一个RSS 文件就是一段规范的XML 数据,它通过层次结构表现了元素之间的所属关系。所谓XML,即可扩展标记语言(eXtensibleMarkup Language),是一种在Web 上使用的数据和元数据语言,它使用DTD(Document Type Define)来显示数据,即XML 并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAG 来表达数据的逻辑结构和含义,数据不需要有内部描述就能被交换和处理,它具有天然的层次结构,是一种半结构化的数据模型。可见RSS所具有的特征都是从XML继承而来的,一些基于XML的Web挖掘方法在挖掘RSS文档中也能使用。

既然RSS是一种半结构化的数据,对RSS文档结构的挖掘不但有利于文档主题内容的理解与提取,还有利于信息的共享与交流。RSS文档包括元素标签(Tag)以及它们之间的嵌套结构,对RSS进行数据挖掘的本质是对这种模式的挖掘。一个RSS文档一般都有着自己的文档类型定义(DTD),在DTD中定义了整个文档中用到的标签以及文档结构,所以对RSS文档的挖掘主要也就是关于DTD的挖掘。用于对RSS文档挖掘的方法主要有分类、聚类和关联规则分析。

分类:分类的目的在于将一个新的RSS文档划分到预先定义好的RSS文档类别中去,在RSS文档中,DTD可以被当作文档类别的描述。

聚类:聚类的目的在于从各种各样的RSS文档中找出它们的相似性,因为RSS文档用DTD来组织数据,所以可以先找出待聚类文档的DTD的相似性,这些相似性可以用来生成一个新的DTD,并作为DTD训练集的一个超类。

关联规则分析:关联规则分析的目的在于描述RSS文档中标签之间的联系,对RSS的层次结构进行分析处理,可能发现某些规则。

另外也可以对RSS文档中每个开始标记和结束标记之间的文本进行挖掘,即对RSS的内容进行挖掘,方法是把RSS文档中标记之间的文本型信息源作为分析的对象,利用定量计算和定性分析的方法,发现各种隐含的知识[4]。

4 结束语

虽然目前在Blog的数据挖掘方面还存在着种种技术或其它方面的困难,但相信随着RSS作为在Blog 上交换数据的一种标准方式的出现,未来Blog空间里的数据挖掘技术必将日臻成熟效率也愈加提高。可以想见,随着对Blog的进一步研究和探索,Blog将不仅能更好的体现其原有的网络出版及信息交流功能,更将在基于RSS的资源共享、信息检索和知识管理等方面发挥积极的作用。

参考文献:

[1]韩家炜,孟小峰.等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414.

[2]胡三华,汪晓东.博客在教育教学中的应用初探[J].远程教育杂志,2004,(1):10-12.

[3]张力.对RSS聚合个性化网络教育资源的探讨[J].中国医学教育技术,2006,20(6):512-515.

[4]潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004,(7):30-34.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。