首页 > 范文大全 > 正文

RSS信息聚合技术

开篇:润墨网以专业的文秘视角,为您筛选了一篇RSS信息聚合技术范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

(河南理工大学计算机学院,河南焦作454100)

摘 要:对rss的沿革及发展进行论述,对比不同莳期不同版本的RSS技术,就KSS存在的问题和前景进行分析。

关键词:KSS:信息聚合;元数据

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2007)01-10046-02

1 引言

当大家上网时,可能越来越多的发现一个新词汇――RSS。如今多数新闻站点、政府以及个人和商业Web站点都支持RSS。而诸如Java技术、PREL、PHP、Pvthon以及多数主要编程语言也都为开发人员提供了专门的处理RSS的工具。对于一些日常使用网络的用户来说,使用各种各样的新闻阅读器和聚集浏览器已经不是件陌生的事情。RSS无形中已经成为影响Intemet发展的一个重要技术。

2 什么是RSS

当在网上浏览某一网站时,经常可以看到这样的图案:

这些标志其实都表示了一样的含义――这里存在一个RSS提要(feed)。

RSS是互联网上用于共享信息的一种元数据[1],通常用于共享新闻的梗概和新闻文章的链接(当然共享的内容不一定仅限于新闻)。实际应用中,被共享的信息未必是实际共享的,但关于信息的相关描述(即元数据)通常是共享的;这些相关描述通常包括信息的标题、摘要、提供者信息以及信息所在的URL信息。

于是,可以看到RSS可以被用来提供某类信息的聚集索引以供人们查询。

3 RSS的产生与发展

“RSS”的字母含义是什么?

这个问题和RSS的产生有一定的关系,有人说表示“RDF SiteSummary”(RDFf21站点摘要),也有人认为是"Really Simple Syndi-cation”(真正简单的聚合),还有人认为是“Rich Site Summary”(丰富站点摘要)。根据现行最流行的RSS 2.0规范的作者Dave Winer的观点,“关于RSS代表什么并没有一致的看法,它不是一个首字母缩写词,而是一个名称。规范的最新版本可能称它是缩写词,但愿不会影响到太多应用程序”。于是我们可以简单认为RSS是表示互联网连锁信息的一种模式。

虽然RSS的兴起是近两年的事,但就RSS技术来说它产生的时间并不算晚。

1997年3月,微软公司提出一项metadata规范:频道定义格式(Channel Definition Format,简称CDF[3])。CDF是IT界的第一个应用于Web推(push)技术的频道框架,Web推技术的主要目的是将传统的用户自己上网“拉”信息改为由网络服务“推送”(push)信息。随后微软的竞争对手网景公司(Netscape)就制定了RSS的标准.当时制定RSS的主要目的在于和微软竞争浏览器的份额.而这个时期的RSS标准是在RDF的基础上开发而成的。此时RSS的原始版本号为0.90。这个版本的RSS标准和现行标准相比过于复杂化,并且由于网景与微软的竞争中逐渐处于劣势,再加上多数运营商对“推”技术并没有特别的兴趣,网景公司最终于2000年放弃了对RSS 0.91标准的制定工作。

但RSS的发展并没有停止,UserLand[4]公司接手了RSS 0.91版本的制定,并把其作为博客[5]写作软件的基本功能之一继续开发.相继推出了0.92、0.93、0.04以及最终2.0版本。随后,由于网络博客的流行.RSS技术被越来越多的网站支持。

在UserLand公司开发RSS的同时,一些专业人士认为应当把RSS发展成为一个通用规范,于是在2001年(此时RSS 0.91版本尚未制定完成)一个非商业联合小组根据RSS 0.90标准,根据RDF对RSS进行了重新定义,并了RSS 1.0版本,该版本的“RSS”被称为“RDF Site Summary”。但是UserLand公司并没有参与此次规范的制定,同时作为简化RSS 0.90标准的提倡者,UserLand公司对RSS 1.0版本的十分不满.所以UserLand公司并不认可RSS 1.0规范,并继续研发其0.9x系列版本,并于2002年9月布RSS 2.0版本.定义其为“Really Simple Syndi.cation”。

南此可见,RSS已经完全分化为两个平行的版本――RSS0.9x/RSS 2.0和RSS 1.0版本.前者被广泛使用,后者则得到多数专家和标准化组织的支持。由于规范的不一致以及RSS 0.9x/RSS2.0已经被广泛使用的现状.RSS 1.0目前还没有成为标准化组织的认可标准。

可见RSS有最少7个不同版本(见表1),因此对于制作RSS相关程序的人员来讲,需要认真考虑一下不同规范的使用特点.并尽可能制作出具有更好兼容性的程序来。

4 RSS前景

随着网络博客的兴起,RSS作为描述Blog主题和更新信息的基本方法也迅速流行。微软也将RSS作为核心技术之一整合到了下一代Windows操作系统中。RSS一跃成为XML技术的最成功应用,它为信息的迅速传播搭建了一个新的技术平台,每个人都成为了潜在的信息提供者。

RSS为更精确的搜索提供了可能,由于RSS实际是一种元数据,描述的是信息的基本内容,所以可以直接根据元数据进行检索从而避免错检大量无用信息。

对于用户来讲,RSS则为“个人化”服务提供了便利条件,不同用户可以根据不同的需要订阅相关类别的信息,这种订阅信息的范围可以是广泛的,不再依赖于某一个或某一类网站,这使得用户节省了在网上盲目查询目标信息的时间(传统查找信息的时间比阅览信息的时间还要长)。

RSS的广泛使用也引起了各个网络公司的注意,很多大公司如Google和雅虎等已经开始尝试在RSS中加入网络广告。当然也有人对此表示担忧,也许RSS中加入广告会使得垃圾广告变得更难过滤。

RSS还存在其他一些知识版权保护的问题,RSS实际上只是描述了信息的梗概,而不是信息本身,因此RSS并不涉及常规的信息版权问题.一个小规模的公司也可以提供高质量的RSS源,所以对于持有信息实在内容的大公司来讲就面临一个难题,它不仅要提供自己持有的信息的RSS源,而且要提供其他(包括竞争对手)公司的信息RSS源才能保持自己的优势。而对于RSS相关的法规制定到现在还处于滞后的状态。

5 结束语

RSS正处于一个迅速发展的时期,它有可能对互联网的发展产生重大影响,而我国广大用户群对RSS的接受还处于初等阶段.多数RSS的使用者是IT业从事者和高学历人士,这类人群对新技术的理解能力往往高于普通使用者,因而RSS于真正被广大人群接受可能还需要一定时间。 (上接第13页)

|A-λE|=0 (7.2)

从此可以求出λ的值。把得到的入代人到(7.1)中求得相应的特征向量x。

下面我们通过一个具体的例子来说明特征值和特征向量的求解步骤。

[5 -2 0]

例: 求A的特征值和特征向量。

8.1求特征值

第一步,打开一个EXCEL工作表,将A输入到A1:C3区域中:

第二步,将A主对角线的单元格分别改为“==5-El”,“==3-E1”和“==1-El”,即以一个单元格引用E1代替入;

第三步,在A5单元格中输入公式“=MDETERM(A1:C3)”;

第四步,在单元格E1中,由0开始,逐步加一个小常数,如0.001.观察A5中返回值的符号变化情况,每改变一次符号,说明附近有一个使行列式为O的解。通过这步操作,得到3个近似值:0.4158,2.294,6.29;

第五步,用“单变量求解”工具搜索比较精确解,“工具”“单变量求解”

打开“单变量求解”对话框。在“目标单元格”中键入A5,在“目标值”中键人0.4158,在“可变单元格”中键入El,按“确定”,则E1中返回值为0.415758,此为最靠近0的一个解。同理,分别将另外两个近似值分别输入到E1中,用“单变量求解”工具,求得全部3个更精确的近似解如下:0.415758,2.294279,6.289944。

8.2求特征向量

分别将三个特征值代入到(7.1)中,得到三个方程组,显然这三个系数矩阵所对应的行列式的值都近似为零。那么根据矩阵的性质,方程组一定有非零解。这就转化为解方程组,解方程组的方法虽然在前面已经说过,但那种方法更适合方程右边为非零向量的方程,所以在这里我们引用层次分析法(AHP)里所介绍的求近似特征向量来解所得到的三个方程组;

对应λ1=0.415758的方程组

(1)为归一化

矩阵中的每个元素除以相应列的加和值 ,使矩阵的每一列归一化,即/ 。

(2)各行平均

计算机归一化矩阵中每一行的平均值 ,得到向量{wi}。

所以对应λ1的特征向量为[2.194804 -1.52814 0.333333]T。

同样的方法求得λ2和λ3所对应的特征向量分别为:

[1.568572 -0.9019 0.333333]T和[0.236685 0.429982 0.333333]T

9 结束语

EXCEL具有强大的数据处理能力,还有很多的函数功能是我们所不经常用到,比如丰富的数学和三角函数、统计函数等,都是需要去发掘并利用的。只有这样,EXCEL才能真正发挥它作为电子表格应有的功能和魅力。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。