开篇:润墨网以专业的文秘视角,为您筛选了一篇图书领域的语义标注范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:语义标注是Deep web数据集成系统中一个非常重要的模块,它是实体识别和结果合并这两模块的基础,语义标注的效果直接影响着整个Deep web数据集成系统的结果。本文提出了在图书领域,利用本体对web数据库查询结果通过属性值进行语义标注,通过对不同网站的测试,该方法具有较高的准确率和召回率。
关键词:deep web;本体;语义标注
1、引言
随着Word Wide Web的飞速发展,Web中的文本和超链接构成了丰富的网页信息,同时,Web中出现了越来越多可以访问的在线数据库,其中蕴含的海量信息可供我们利用。整个Web按照信息蕴含的“深度”可以划分为Surface Web和Deep Web两大部分。Surface Web是可以被传统搜索引擎索引到的页面集合。Deep Web目前还没有比较明确的定义,通常是指Web中可访问的在线数据库,简称为Web数据库。Deep Web中蕴含的数据量更大,结构化程度更高,覆盖领域更广,内容更加专业化,因此对Web数据库的访问逐渐成为获取信息的主要手段。
DeepWeb数据的集成是对结构化信息的集成,以尽可能自动的方式来完成对Web数据库中信息的有效利用。目前,Deep Web数据集成框架共分为两大模块:集成查询接口生成模块和对集成查询接口上查询的处理,其中后者又包括领域的映射、Web数据库的选择、查询分派、结果抽取、结果注释、实体识别和结果合并七个模块。
2、deep web语义标注
2.1 语义标注的定义
语义标注是指利用一组语义明确的词汇,标注web数据库查询结果中的每个数据,使查询结果不但人容易理解,而且是机器可处理的。这是一个对web数据库查询结果添加机器可处理的语义标记的过程。
领域知识指的是在某一特定领域内的概念与概念之间的相互关系,以及具有相关性概念间的约束的集合。一般来讲,领域知识是指人们在日常生活中长期积累、社会流通度高、众所周知的一些动态的语义知识,往往与具体领域相关。
2.2 查询结果语义标注
基于Deep Web数据库的查询,返回的结果是通过提交的查询词,利用后台数据库中预先定义好的模板动态生成,这些模板结构清晰,可读性强,因此对同一个Deep Web数据库提交同一个领域内不同的查询,返回结果页面的模式也是相同,主数据区中的各个数据记录相同的位置描述相同的属性信息,基于这一点,本文利用实例对象建立本体模型,然后通过训练本体中的实例生成标注模板。
查询结果的模式中包含查询词和接口中的部分属性名称,因此将对象的标注转化为对其属性的标注。对将标注的对象进行属性选取时,主要根据两点进行选取:第一是根据查询接口和返回结果页面中各属性出现的次数;第二是根据某特定领域的特征选择领域对象的属性。本文对标注对象进行抽象概括后,给出标注模型:ObjectModel={U,AN,A,T}u是网站的域名集,AN是该领域对象要标注的属性名称集;A是领域对象的属性值集合,是该领域对象的所有属性值;T是领域对象的数据特征集合,它是领域对象所对应属性的基本特征集合。语义标注就是对于任何一个Ui(Ui∈U)中的结果记录的属性值Aj(Aj∈A),都要从AN中找到一个明确的词汇并对其添加必要的语义信息,使得计算机可以识别、处理。
在基于本体的Deep Web数据集成系统的实现过程中,领域本体的构建关系着整个系统的效率,本文构建的本体以图书领域为背景,给出本体中相关概念的定义和模型。图书领域本体主要用于描述说明图书领域知识的概念集,它是该领域中实体概念、相互关系以及该领域所具有的特征信息。因此本文认为图书领域本体由概念、关系、属性和实例组成。在本体的构造过程中,本文应用斯坦福大学开发的本体开发工具Protege,选取图书的“ISBN”、“TITLE”、“AUTHOR”、和“PUBLISHER”四个属性构造了一个小型的图书领域本体。
通过统计与观察大量的图书网站,本文选取了几个最为常用的属性名称:书名、作者、出版社、出版时间、原价和折扣价,即标注模型中的取值定位AN={书名、作者、出版社、出版时间、原价和折扣价}。本文的标注方法分为训练阶段和标注阶段,训练阶段主要是根据样本结果集生成某特定网站的标注规则,由于图书领域的数据特征和特性,生成标注规则分为两种:一种是对于书名、作者和出版社这三个属性应用本体中的实例模板生成,另一种是对于出版时间、原价和折扣价这三个属性应用数据特殊格式形成标注规则。标注阶段的任务是根据训练阶段形成的标注规则对抽取结果进行标注。标注过程如下:
Step1:从的处理结果文档中随机选取若干个处理结果记录,存入本体中,作为该网站的实例样本,也是语义标注的训练标注模板,由多个属性名称和属性值组成的元组构成的。
Step2:从XML文档集中随机的选取一部分文档作为训练集,再随机的选取一部分作为测试集,将本体中的实例模板与训练样本中的数据记录进行匹配,在训练样本中找到本体实例在页面中的位置,即,(Rj训练样本中的数据记录)再将这个实例模板的各个属性值与的各个数据单元进行匹配,如果匹配成功则说明的属性名称是标注的候选标注名称。通过训练之后,统计数据记录相应位置所选的候选标注名称,将概率最大的作为最佳标注名称;如果在的所有属性值中没有找到与的数据单元相匹配的,说明不能够使用本体中的标注模板来标注,应该使用特殊格式来标注。
Step3:这一步是标注阶段,主要任务包括:首先通过该网站的URL判断其是否包含在域名集中,如果不包含,则根据“Stepl-Step3”生成标注规则,如果包含,则通过映射规则找到该网站的标注规则,再应用标注规则对待标注页面进行语义标注。
3、实验数据与结果分析
对语义标注的评价采用准确率和召回率作为评价标准,基于领域的特征本文选择了书名、作者、出版社、出版时间、原价、折扣价这六个基本属性属性。
准确率=(正确标注的数据记录的个数/返回的数据记录的 个数)×100%
召回率=(正确标注的数据记录的 个数/实际标注的数据记录的 个数)×100%
表1针对图书领域的语义标注的实验结果,本文对5个网站进行了测试,实验表明本文应用的标注方法具有良好的召回率和准确率。
4、结论
对deep web数据库的查询结果添加语义标注是一个新的研究问题,为了获得完整、一致的标注结果,本文提出将领域本体应用到标注过程中,并充分考虑到了查询接口和查询结果的特征,生成属性标注的过程,最后对图书网站进行了实验与分析,实验结果表明该方法有较好的查全率和查准率。