首页 > 范文大全 > 正文

基于二维关联边条件随机场的Web信息抽取

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于二维关联边条件随机场的Web信息抽取范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要: 针对Web信息抽取领域中存在的“项无序”问题,提出了一种基于二维关联条件机场模型的web信息抽取方法。将Web文档解析为一个词性序列,映射待抽取的信息项的状态,映射待抽取的信息项为二维关联边条件随机场中的序列参数,使用归纳算法构造二维关联边条件随机场模型。实验结果证明该方法可以获得更好的抽取性能。

Abstract: To solve disorder among information items in the field of Web information extraction, this paper proposes a Web information extraction algorithm based on 2D correlative-chain conditional random fields. It parses a Web document into a part of speech sequence, and maps an information item to a state with mapping information items to be extracted for the two-dimensional Correlative-Chain Conditional Random Fields(2D-CRFs). A 2D-CRFs model is obtained by using induction algorithm. Experiments show that the algorithm has better extraction performance.

关键词: 条件随机场;web信息抽取;归纳算法

Key words: conditional random fields;web information extraction;induction algorithm

中图分类号:TP39 文献标识码:A文章编号:1006-4311(2010)34-0186-01

1概述

随着WWW的快速发展,Web网页中已经存放了涵盖各个领域的大量有价值的信息,庞杂的数据日益增多。Web在给我们带来快速、便捷、廉价、丰富信息的同时,也给我们带来了一个问题。由于越来越多的企业和个人通过Web信息,使得Web上的信息量以指数级的增长速度在增长,Web上庞大的信息量和用户需求之间产生了严重的不平衡矛盾,用户为了获取自己需要的一点点信息,可能需要花费几十分钟、几个小时、甚至更长时间来搜索、浏览网页查找所需信息,一不小心就会淹没在信息的之中。

目前,针对Web信息的抽取工具大致可以分为2类:基于特别语法的信息抽取工具盒基于归纳学习的信息抽取工具。基于特别语法的信息抽取工具主要有TSIMMIS。基于归纳学习的信息抽取工具主要用于自动生成针对结构相似的Web页面的包装器。这种信息抽取方法没有考虑信息项之间的次序辨析和信息项在Web页面中的位置特征,信息抽取模型的表达能力不足,从而影响了信息抽取的性能。

作为一种机器学习模型,条件随机场模型由于其前后相连的序列关系已经成功的应用到Web信息抽取中。由于Web信息项之间的逻辑关系是“非线性的”;传统的基于CRFs的信息抽取方式是以目标项的前后文item作为词汇,而对Web信息进行抽取时,则会包含目标项的格式、位置等特征项信息。

根据Web信息的特点,本文提出了一种基于二维关联边条件随机场的web信息抽取方法,给出了根据序列表示词性的二维关联边条件随机场信息抽取模型的算法及相应的信息抽取算法。

2信息抽取模型构造算法及信息抽取算法

信息抽取模型的构造过程如图1所示。首先使用HTML解析器将输入的Web文档解析为一个词性序列,然后对待抽取的信息项在条件随机场模型中进行标注,最后使用二维关联边条件随机场模型中相应的公式对标注的结果进行归纳,获得信息抽取模型。

2.1二维关联边条件随机场标注模型

定义设G=是一个二维条件随机场,X是序列观测数据随机变量,Y是状态标注序列随机变量。Yi,j是Y在位置(i,j)上的组成元素。如果存在Yi,j,Ym,n,且Yi,j∈Y,Ym,n∈Y,|i-m|1,使得Ym,n依赖于Yi,j,则对称边(Yi,j,Ym,n)是一条关联边,并称包含关联边的二维条件随机场模型为二维关联边条件随机场。

在本文提出的模型中,关联边分为两种类型:CU型关联边和UU型关联边,当Yi,j不具有确定的语义标签时,称关联边(Yi,j,Ym,n)为Certain-Uncertain型关联边,简称CU型关联边;当Ym,n和Yi,j都不具有确定的语义标签时,称关联边(Yi,j,Ym,n)为Uncertain-Uncertain型关联边,简称UU型关联边。利用二维关联边条件随机场模型主要完成三方面的工作:①建立关联边;②参数估计;③特征向量。

2.2 信息抽取算法得到信息抽取模型后,按照如下步骤抽取Web信息:①根据生成算法将输入的Web文档解析为词性序列;②按照顺序遍历方式提取词性序列中每个text属性不为空的节点的路径作为观测值;③采用Viterbi算法将待抽取的输入序列标记为最大概率状态标签序列。

3实验

实验数据来源于BigBook网站,输入关键字IBM后查询得到48个网页,共630条记录。每条记录由公司名、街道、城市、电话、传真以及E-mail等项构成。在实验中,随机选择100条作为训练样例,然后再整个数据集上进行测试。

为了便于对Web信息抽取的结果进行衡量和分析,采用召回率(recall)和准确率(precision)2个指标作为算法评价标准。实验结果如表1所示。

4结束语

本文在对现有的信息抽取工具和方法进行深入分析的基础上,提出了一种基于二维关联边条件随机场的Web信息抽取方法:首先将给定的HTML标记序列解析为一个词性序列,接着在词性序列上对信息项及其所在的位置进行标注,然后使用二维关联边条件随机场模型中相应的概率公式计算模型所需的参数,从而获得信息抽取模型。实验表明该方法获得了更好的抽取性能。

参考文献:

[1]WIEDRHOLD G.Mediators in the Architecture of Future Information System. IEEE Computer, 1992.25(3):38-49.

[2]Hammar J, Garcia-Molina H, Cho j,et al.Extraction semi-structured information from the Web[C].In Proceedings of the Workshop on Management of Semi-structured Data,Tucson Arizona,1997.

[3]石宇.基于XML的Web信息抽取与集成技术的研究:[硕士学位论文].大连海事大学,2006.

[4]李效东,股毓清.基于DOM的Web信息提取[J].计算机学报,2002,09(25):526-533.