基于脚本代码和局部数据匹配的网页抽取研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于脚本代码和局部数据匹配的网页抽取研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：随着科技的进步互联网的普及，InYXrnXY逐渐成为我们日常生活中的重要角色，变成学习和社会生活中的一部分。随着网络的高速发展，导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂，内容变得丰富。WXD普遍以HYML语言的形式出现，不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种，对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结，第一步网页控制代码树可以从网页脚本代码的嵌入转换而来，通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法，并且将同类阈值的网页结合在一起，最后再根据网页自动生成的规则采取相应的容错性策略，完成对同类网页的抽取。

关键词：全自动网页信息抽取；脚本代码；控制代码树

中图分类号：TP393.092

1 网页信息抽取技术

1.1 基于对象树模型抽取方式。通过对网络数据库和WXD技术之间的关系入手研究分析，我们可以发现现在浏览器或服务器模式已经成为大多数网站所采用的网络数据库技术。所以根据上述因素我们可以把网页信息抽取归纳为以下三点：（1）网页中所需要的数据可以从数据库直接调取出来；（2）网页中的数据可通过数据模板进行组织；（3）网页代码串可以根据网页需要进行装饰。同一模板填充的数据往往都存储在一个表中，由于网页包装器可以由同类数据记录页面生成，因而可以利用其包装进行抽取。

1.2 基于人类视觉方式的抽取。通过对人类视觉对图像的认知的角度，结合人类视觉方式是网页信息抽取的另一个出发点。由于视觉理解习惯因而在网页制作中必须考虑这类因素，比如：人们习惯在阅读中从左到右、目光聚集在中间重要内容需要放在中间、把语义块所展示的信息内容作为网页展示的基本单元等。因而，在网页中可以根据信息内容在网页其出现的位置、内容字体出现的颜色、出现的类型、语义块这些都对网页进行信息抽取的根据。通过对网页信息的分析可以发现早视觉分布上网页DOM结构与网页信息是有所互补的，这一结论应经通过专业的实验和研究得到了证明，基于人类视觉方式的抽取方法不仅能够对基于对象树模型的不足之处变得准确性而且也使得基于对象树模型的效率得到了提高。刘冰等行业的专家是通过人类视觉的特征对网页进行信息抽取的早期人员。

2 基于CCM树的相似网页聚类方法

2.1 网页脚本代码。由于网页的动态制作技术在不断的发展之中，现有的商业性网站都喜欢将JCVC脚本代码加入到网站的网页数据库中。通过对GooglX PCgXrCnk的随机选取结合实际，评级出了大于6的各类网站100个，发现这些网站普遍的都在使用JCVC脚本代码。通过对这类网站脚本代码的观察可以得去这类网站在脚本代码上表现为如下特性：（1）拥有提取方便的ScripY标签，这也是其唯一标示符；（2）代码结构性强，存在包含、并列关系；（3）程序员编写脚本代码。

2.2 CCM树的定义、表示及构建算法。举例对有序根树进行分析，设树Y是一棵节点带标记的有序根树，则该树成立必须满足以下特性：（1）由固定的根节点；（2）子孙节点的组成顺序固定不变；（3）树中节点的性质是由标签赋予的。

Control Code Model Tree的缩写是CCM树，即控制代码树，我们可以根据网页的CCM树代码构建出一棵有序根树并带有节点标记。设Y（X，v）是一棵控制代码树，X表示边集，v表示节点集。那么v就等于vl并上v2并上v3，v1便是Root的节点，那么该节点就是对应的网页信息；如果v2是Y的节点，那么该节点的子节点所对应的代码必包含在对应的Y内；V3为代码节点。，其中顶点C，D应符合下面条件之一：（1），且D所表示V2节点在C表示的网页中；（2），且D在C对应的属性中；（3），且D在C对应的Y内且不存在。

2.3 控制代码树聚类。控制代码树，根节点子树YC和YD分别作为第一个和第二个V2的节点，根节点子树YC和YD分别拥有12个和1个子孙节点，一次我们可以看出对匹配整个控制代码树贡献最大的是子树YD，根据Zipf定律，对于包含子孙节点的V2节点对其节点个数进行如下处理：

映射设（I）Yx是一棵树（II）Yx[I]是按前序顺序排列，如果Yx树是第I个被遍历到的节点，则树Y1到树Y2的映射可以被表示为集合M，这个集合由有序对C组成，且对于所有，（i1=j2）（i2=j2）任意的M对该映射必须满足下列条件：（1）i1=i2当且仅当j1=j2；（2）Y1[i1]是Y1[i2]的左兄弟，当且仅当Y2[j1]是Y2[j2]的左兄弟；（3）Y1[i1]是Y1[i2]的祖先，当且仅当Y2[j1]是Y2[j2]的祖先。

一棵树的最小操作数可以由另一个树映射到树编辑距离。一般来讲，针对树Y我们要考虑三种操作：（1）顶点去除；（2）顶点插入；（3）顶点替换。经过大量观察发现，同类页面的CCM树变化很小，且基本都是增加或者删除V2节点。

3 局部数据匹配的抽取方法

3.1 关键数据区域。随着互联网的普及在网络上的网站、网页其数量暴涨，这也使得网站必须采用简洁便于数据存储的方式，这也使得wed数据得到了广泛的应用，较高的结构性和代码结构重复性是wed广泛被网站和网页采用的重要因素，正是因为这些优势的作用使得网页的模板可以经过组合生成。然而，对于规模性的商业网站（淘宝网，京东，1号店等）来说，其网页的设计就相对复杂了，在进行网页模板的汽配工作时也加大了工作力度从而增加了网站的运营成本部符合网站商业性经营的目的。如果要就绝这类的问题就必须从实际出发查找问题解决问题，解决的方法就是在网页中定义出包含关键内容的网页模板块，关键数据区域就是解决该问题的一个有效途径。这些可以解决问题的网页模板块具有如下特征：（1）在位置的关系上模板块之间不存重叠；（2）必须是相邻的模板块；（3）模板块的长度（或宽度）是相同的。

3.2 对TOP-DOWN树的匹配算法。TOP-DOWN匹配：树Y1和Y2的YOP-DOWN匹配是指满足下列条件的匹配：M是Y1和Y2的一个匹配，对于M中所有的数字对（i，j）都有，若（i，j）任M则必有。

由以上定义可知，若DOM树Y1对Y2完全YOP-DOWN匹配，则有如下性质成立：（1）Root（Y1）=Root（Y2），即两棵树的根节点匹配成功；（2）设nodeY1k[]，nodeY2k[]分别是Y1和Y2的第K层节点（K≤Y1的高度），必有nodet1k[]为nodeY2k[]的顺序子集。

对于树Y1和Y2中的任意一对叶子节点N0DE1、N0DE2，以这两个节点为根的子树的TOP-DOWN匹配值M（iJ）定义。

3.3 网页数据的抽取和信息标记。网页对数据中内容的收取的过程是相对简单的。第一利用网页的特征进行XYD算法对网页信息进行抽取，并查询出需要抽取信息的位置，从而做到可以把网页包装器所指定的节点与网页内容抽取出来。关于对网页数据内容标示方面，当前主要的研究方向是针对网页数据库中的标签节点信息抽取以及把其转换成模板运用，这些步骤都是需要人工一步一步对匹配规则所对应网页数据进行语义标示的。关于语义标示方面所涉及到的问题可以解释为是对人类自然语言理解，机器智能化等方面的解释，由于受到相关研究的瓶颈限制，此类问题不作为本文的研究重点，在此不需一一阐述。

参考文献：

[1]贾铭.基于脚本代码和局部数据匹配的网页抽取研究[D].山东大学，2012.

[2]高原.面向领域的DXXp WXD信息抽取研究[D].南京信息工程大学，2013.

作者简介：高永平（1975.11-），女，四川人，中级职称，本科，研究方向：计算机应用与开发。

作者单位：雅安职业技术学院，四川雅安 625100

基于脚本代码和局部数据匹配的网页抽取研究

优秀范文

精选范文