网页正文信息抽取方法探讨(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇网页正文信息抽取方法探讨范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

【摘要】网页信息抽取是网页数据挖掘、机器翻译等应用的基础，是当今的一个研究热点。在分析了已有的网页信息抽取方法基础上，对有待进一步研究的方向进行了展望。

【关键词】网页信息抽取；HTML；网页

1.现有的网页信息抽取方法

1.1基于自然语言处理方式的信息抽取

使用自然语言处理进行信息抽取，需要经过的处理步骤包括：句法分析、语义标注、专有对象的识别（如人物、公司）和抽取规则。具体说来就是把文本分割成多个句子，对一个句子的句子成分（part ofspeech，简称为POS）进行标记，然后将分析好的句子语法结构和事先定制的语言模式（规则）匹配，获得句子的内容即抽取信息。规则可由人工编制，也可从人工标注的语料库中自动学习获得。这类信息抽取技术中所用的抽取规则主要建立在词或词类间句法关系的基础上。

基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网页中的信息抽取取得了较好效果。这种方式的缺陷是：（1）将网页页面视为普通文本处理，没有充分利用网页文档独特于普通文本的层次特性。获得有效的抽取规则需要大量的样本学习，处理速度比较慢，这对于网上海量信息来说是一个大问题。

（2）网页页面中的文本通常不含有完整的句子，导致这种方法的适用范围较小。

1.2基于包装器归纳方式的信息抽取

包装器归纳法是一种自动构造包装器的技术。

主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据，系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页，这些例子就是高质量的。对于我们来说，提供好的样本网页要比提供明确的完整的规则要容易。

归纳学习法作为一种机器学习方法用来学习包装器的规则，优于手动生成包装器等其他包装器生成方法的地方在于：自动归纳规则，减轻了人力负担、减少了人为错误，并且当网页页面变化时，能对规则做适当调整，适应这种变化。

与自然语言处理方式比较，包装器较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术，更注重于文本结构和表现格式的分析。这种方式更适合于网页页面的信息抽取，使用包装器能充分发掘网页页面的结构和格式特征，能避免使用复杂的语言学知识，加快信息抽取的速度。

使用包装器的困难在于：（1）包装器的针对性强，可扩展性差。一个包装器处理一种特定的信息源，从几个不同信息源中抽取信息，需要一系列的包装器程序库，造成巨大的工作量。

（2）可重用性差。包装器对页面结构的依赖性强，当出现一类新的网页页面或旧的网页页面结构变化时，原来的包装器就会失效，无法从数据源中获得数据或得到错误的数据，这就提出了一个新的问题—包装器的维护，即包装器失效时，如何修复失效的包装器使之继续正确抽取数据。

（3）缺乏对页面的语义理解。目前的包装器主要依赖于原网页或其后台数据库的模式，基本上是一种数据模式的还原，缺乏主动性的对数据的语义理解。

1.3基于Ontology方式的信息抽取

Ontology在哲学中泛指对客观世界的本体描述，在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。基于Ontology的信息抽取主要是利用对数据本身的描述信息实现抽取，对网页结构的依赖较少。

该系统最大的优点是对网页结构的依赖较少，只要事先创建的应用领域的Ontology足够强大，系统可以对某一应用领域中各种网页实现信息抽取。

主要缺点是：（1）需要由领域专家创建某一应用领域的详细清晰的Ontology，工作量大。

（2）由于是根据数据本身实现信息抽取的，因此在减少了对网页结构依赖的同时，增加了对网页中所含的数据结构的要求。如要求内容中包含时间、日期、功号码等有一定格式的内容。

1.4基于HTML结构的信息抽取

该类信息抽取技术的特点是，根据网页页面的结构定位信息。在信息抽取之前通过解析器将网页文档解析成语法树，通过自动或半自动的方式产生抽取规则，将信息抽取转化为对语法树的操作实现信息抽取。

以XWRAP为例进行分析。通过交互的方式，由用户在样本页中指定抽取区域的起始位置，系统确定整个抽取区域，并确定区域的类型（table，list等）然后通过可视化的方式，由用户在样本页中指定语义项（如表头）及与之对应的实例，系统自动产生抽取规则实现信息抽取，最后系统利用启发信息获得数据间的层次结构关系，生成XML文档。

该系统对于不同的区域类型采用不同抽取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构的网页进行信息抽取，不支持对普通网页的抽取，模式的表达能力也非常有限，在学习阶段用户参与太多。

1.5基于网页查询的信息抽取

上述的信息抽取工具，采用了不同的原理，抽取，此均不具有通用性。基于网页查询的信息抽取，将网页信息抽取转化为使用标准的网页查询语言对网页文档的查询，具有通用性和良好的可扩展性。

常用的技术有：搜索引擎技术、网页查询语言技术和智能Agent技术。这三类方法各有优缺点。如搜索引擎技术具有查询条件简单的优点，但查准率和查全率不高，需要用户逐一浏览才能找到所需要的结果；网页查询语言技术具有查询精度较高的优点，但是目前没有统一的查询语言，查询时需要指定站点，应用面窄；将智能Agent技术应用于网页查询的优点是提高了查询工具的智能化和个性化，缺点是知识库的构造比较复杂，学习算法的优劣会直接影响查询结果的准确性。

2.网页信息抽取面临的挑战

（1）目前各类信息抽取技术中生成抽取规则的依据主要有三类：页面结构信息（HTML语法）、页面的内容和自然语言语义、语法信息。基于结构方式过分依赖网页的结构、可扩展性弱，基于内容方式又需要复杂的语言知识和自然语言处理技术。因此，应继续研究如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点。

（2）机器学习能提高获取规则的自动化程度，但通常需要大量的样本页面，而且需要经过较长时间的学习，信息抽取才能获得较好的查准率。需要研究如何简化机器学习的过程，在较短时间内准确获得需要的信息。

（3）网页上的信息内容和网页结构处于不断地更新和变化中，因此，时刻注意如何感知这种更新和变化，进而修改已有规则，保证信息抽取的正确性。

（4）无论是自然语言处理，还是包装器技术往往针对一个特定的信息源，一个特定主题和领域，每出现一个新的信息源就要重新构造一套抽取程序，造成系统的可扩展性差。因此，应研究如何最大程度地利用已有的资源（程序、数据等），通过最小程度地改造适应新的信息源，增强系统的可扩展性。　[科]

【参考文献】

［１］韩存鸽,燕敏. Web信息抽取方法研究[J].计算机系统应用,2009,(07).

［２］龙丽,庞弘燊.国外Web信息抽取研究综述[J].图书馆学刊,2008,(05).

［３］宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报, 2009,(04).

［４］徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,(04).

［５］徐中华. Web信息抽取方法概述[J].经营管理者,2008,(09).

网页正文信息抽取方法探讨

常用范文

优秀范文

精选范文