开篇:润墨网以专业的文秘视角,为您筛选了一篇基于页面标签的网页分类研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.10671045)
[摘 要] 针对Html网页结构的特点,网页的不同标记信息所辖的特征项包含不同的类别信息,通过抽取网页不同标记信息内的特征项并赋予不同权重来表明其重要程度。实验证明该方法比单独依赖网页内容信息的分类在效果上有所提高。
[关键词] 网页分类 特征项 权重计算
一、引言
随着互联网技术的不断发展,web网已经成为一个巨大的信息源,成为人们获取信息的重要来源。由于Web网页中蕴藏的信息资源内容广泛,形式各异,有效组织和管理这些资源尤为重要,通过网页的自动分类可以更好地对其进行组织和管理,加快信息检索的速度。然而,web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据。一方面,这些结构性信息常是页面中包含的非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。另一方面,这些结构性信息又包含着重要的分类信息,利用好这些信息能有效提高分类效果。
本文对网页的标记进行了分类,对位于不同标记内的特征项赋予不同的权重系数,在分类过程中重新调整其权值,以期改善分类器的性能。
二、网页特征分析
与纯文本数据不同,网页数据是一种半结构化的数据。在HTML文档中,正文信息是嵌入在HTML标记中的,HTML文档的标记具有嵌套结构。仔细分析HTML文件的格式,可以发现其中有一些标记信息对分类是有益的。(1)页面的标题,无论哪种类型的文本,一般都会有标题,通常标题部分特征信息的量都比文章其余部分要大,标题一般是网页内容的精炼概括,字数较少,除很少的一些虚词外基本上都是网页的特征词;(2)分级标题,分级标题是网页内容的基本框架,是网页局部内容的概括和提炼,在一定程序上强调了网页内容;(3)字体格式,在一些网页上,常对重要的文本加以修饰,突出其重要性,如将关键词句的字号加大,对其加粗、加下划线及加斜,或者附以不同的颜色。
为了精确表示网页的结构,定义标记集S={TL,HD,FS,FL,FC,UR}。
TL:标记为TL的特征项是文中的标题部分;
HDi:标记为HD的特征项是文中的分级标题;
FSi:标记为FS的特征项为非基准字号;
FL:标记为FL的特征项被字体格式化处理;
FC:标记为FC的特征项为非基准颜色。
说明:标题部分可以看成是零级标题,因此TL和HDi的权重系数可统一处理;FSi的权重系数为字号减去基准字号的绝对值,其中,基准字号l是文本长度最长的标签部分所用的字号;FL权重系数为3;FC的颜色值为非基准值u时取2,其中,基准值u为文本长度最长的标签部分所用的颜色值。
三、关键技术
1.特征项抽取
本文的特征提取分两步进行,第一步按常规方法去除结构性标签,获取纯文本内容,用成熟的特征选择方法互信息MI得到一个初始特征集合T。互信息MI公式为:(1)
其中:A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数。N为所有文档数。如果t和c不相关,则MI(t,c)值为0。如果有m个类,于是对于每个t会有m 个值,取它们的平均,就可得到特征选取所需的一个线性序。互信息值大的特征被选取的可能性大。
第二步对格式化文本进行提取,抽取格式特征项集合,并按表1模板对特征项进行标记,以备后续处理。
2.特征权重计算
(1)特征表示
文本分类中的文本表示主要采用向量空间模型(vector space mode,VSM)。向量空间模型的基本思想是以(W1,W2,W3,…,Wm)向量来表示文本,其中Wi为第i个特征项的权重 。n个文本组成的文本集合D={d1,d2,…,dn}被m个特征项W1,W2,W3,…,Wm索引,可表示成一个m×n的特征项文本矩阵A,A={d1,d2,…,dn},其中di=(W1,W2,W3,…,Wm),如下所示: (2)
其中:每一列di代表一个文本;一行Yj 代表特征项在各个文本中的权值.特征项权重的计算方法主要运用TF-IDF公式: (3)
式中:W(t,d)表示特征词t在文本d中的权重,tf(t,d)为特征词t在文本d中的词频,N为训练集中文本的总数,nt为训练文本集中出现词t的文本数,分母为归一化因子。
(2)特征加权
考虑Web网页的描述信息中出现的关键字包含网页的重要信息,对分类有较大的作用。因此,对这部分特征项进行加权处理。依此权值信息表,我们对特征词t在文档d的权重计算公式(1)做如下改进。
(4)
其中,表示特征项t被k个HTML标记修饰权重之和。
3.特征选择算法描述
Step One:对网页预处理,进行分词及分词后的预处理,获取初始特征集;对网页进行格式特征抽取,获取格式特征集合;
Step Two:对于初始特征集中的每个词,利用式(6)计算特征项和类别的互信息值;
Step Three:对互信息值进行排序, 根据设定阈值T对每个类别提取若干个贡献最大的特征项,删除大部分对分类意义不大的特征项,得到特征项的最终集合T=(t1,t2,……,tm)(m
Step Four:根据式(4)计算每个特征项的权值wi;
Step Five:生成特征向量表,每篇文档表示为向量(tl,wl;t2,w2;……;tn,wn),ti为特征项,wi为对应的权值。
四、试验分析与结果
1.分类算法
本文采用KNN分类算法进行实验,该算法的是在给定新文本后,考虑在训练文本集中与该新文本距离最相近的K篇文本,根据这K篇文本所属文本所属的类别判定新文本所属的类别。计算公式为: (5)
其中,相似度计算公式为:(6)
为类别属性函数,定义为:(7)
2.实验结果
实验数据是从新浪网、雅虎网等多个网站上采集的中文网页数据集,从中选取了政治、交通、环境、经济、艺术、娱乐等六个类别共1800篇文章,其中每个类别300篇文章;每类选取200个网页作为训练集,其余100个网页作为测试集。
在相同环境下,我们分别对两种特征选择方法进行了对比实验,结果见表1。其一是采用传统TF-IDF特征选择方法直接进行训练,计算权重;其二是考虑网页结构特征的重要性,将位于网页某些结构标签的特征项进行加权,并将加权处理融合到TF-IDF方法中。实验结果表明,第二种方法能取得良好的分类效果。
五、结束语
网页的自动分类在信息检索领域中均占有十分重要的意义。然而,网页分类不同于普通文本的分类,网页中包含大量的网页标记信息,这些标记信息包含重要的分类信息,充分挖掘这些信息有利于提高网页的可分性。本文正是在对这些标记对信息研究的基础上实现正文信息的选取和表示的。实验已表明所用方法的有效性和可用性。在后续的研究中,将对网页特殊描述信息中的特征项权值系数确定方法进行研究,以求更加合理的加权方法。
参考文献:
[1]Wang Lian,David Wai-lok Cheung.An efficient and scalable algorithm for clustering XML documents by structure [J].IEEE Trans on Knowledge and Data Engineering,2004,16(1):82~96
[2]初建崇 刘培卫 王卫玲:Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19): 192~194,198
[3]呼声波 刘希玉:网页分类征提取方法的比较与改进[J].山东师范大学学报(自然科学版),2008,23(3): 35~37
[4]胡 健 陆一呜 马范援:基于HTML文档结构的向量空间模型的改进[J].情报学报,2005(4):433~437
[5]何中市 刘 里:基于上下文关系的文本分类特征描述方法[J].计算机科学,2007,34(5):183~186