三段式逐步求精的中文Deep Web数据源自动分类(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇三段式逐步求精的中文Deep Web数据源自动分类范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要:针对单纯的Pre-query和单纯的Post-query分类方法对中文Deep Web数据源自动分类的不足,本文提出了三段式逐步求精的中文 deep web 数据源自动分类方法,并且基于该方法设计了相应的分类系统。通过实验表明:对于实验数据源,这种自动分类方法比单纯的Pre-query分类方法、单纯的Post-query分类方法以及无影响度差别的文献[2]的分类方法的查全率、查准率和F1值都要高。

关键词:Deep Web;数据源自动分类;中文;三段式

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)14-3599-03

A Three-phase Gradual Refining Data Source Automatic Classification of Chinese Deep Web

HU Ping

(Department of computer, Huaihua University, Huaihua 418000,China)

Abstract: This paper presents a three-phase gradual refining data source automatic classification of Chinese Deep Web, and designs corresponding system based on this method. It has improved simple Pre-query and simple Post-query classification method. Eperiments show that: this method has the highest recall rate, the highest precise rate and the highest F1 value, among simple Pre-query, simple Post-query, our method and document's method that has no difference in effect on classification, for experiment data source.

Key words: Deep Web; Automatic Classification of Data Source; Chinese; Three-phase

1 引言

Deep Web数据源自动分类是当前的Deep Web研究中的一个热点。它实现将Deep Web资源按照现实的领域以自动的方式进行分类,以最终提高Deep Web资源的利用率。本文主要研究Deep Web数据源自动分类方法。目前,该研究还是一个刚刚起步的过程。Ipeirotis、Hedley、B.He、Qian Peng、Barbosa L等人 [1-4] 都提出了相应的Deep Web数据源自动分类方法。但是已有的研究工作只单纯地采用Post-query或Pre-query方法中的一种,并且绝大部分都忽略了上下文描述内容文本的利用和这些依据信息对分类影响度的差别。此外,中文Deep Web数据源自动分类研究也很少。

2 三段式逐步求精的中文Deep Web数据源自动分类方法

2.1 三个阶段结合的分类策略

单纯的Post-query分类方法,只依据查询返回的Web数据库内容摘要来分类。由于它返回的结果毕竟只是数据库的部分内容,而当数据库的记录具有较多属性时,这种方法则难以取得较好的分类效果。

而单纯的Pre-query分类方法,只依据查询接口表单网页自身的特征来分类。它仅适合数据库的内容可以完全由表单的特征表示出来的情形,它对一些查询接口表单中不含有任何基于领域特征属性的Deep Web数据源无法分类,从而使得这种方法总的分类效果不好。尤其是对中文Deep Web数据源,如果仅仅采用这种Pre-query方法,由于有较多的中文数据源的查询接口是不含有任何基于领域特征属性的简单查询接口,其自动分类效果则会更加不理想。

为此,本文提出了一种三段式逐步求精的中文Deep Web数据源自动分类方法。该方法将Post-query和Pre-query方法有机地结合起来,并且设置了两种不同的分类影响因子,通过Deep Web查询接口表单特征的利用、Deep Web数据库内容摘要的利用以及上下文描述内容文本的利用,这三个阶段逐步提高了中文Deep Web数据源自动分类的效果。

本文的分类策略包含以下三个阶段:

1)Deep Web查询接口表单特征的利用――作为分类的第一阶段。因为在所有Deep Web查询接口中有相当多的查询接口包含有基于领域的特征属性,并且Deep Web查询接口表单特征利用的分类影响度远远超过了上下文描述内容文本,此外,本文的Deep Web数据库摘要利用方案的基础是已知查询接口是否含有基于领域的特征属性的,因此,本文使用Pre-query分类方法,将其作为分类的第一阶段。由于Deep Web查询接口表单中的控件的文本标签、内部名和其值域提供了相应的语义和领域相关信息,因此在这一阶段抽取这些表单特征作为分类依据信息并对其进行标准化操作。

2)Deep Web数据库内容摘要的利用――作为分类的第二阶段。在这一阶段又结合了Post-query分类方法,其关键作用是:它能填补第一阶段无法给出任何简单Deep

Web查询接口及其Web数据库的所属领域的空缺。另外,还可以对高级Deep Web查询接口及其Web数据库在上一阶段得到的可能领域作进一步的细化。在Deep Web数据库内容摘要的利用过程中,本文从查询项选择出发,根据返回记录的关联对Deep Web数据库内容进行获取并且经过抽取与查询相关的信息形成Deep Web数据库内容摘要,并且将其作为分类依据信息进行了标准化操作。

3)上下文描述内容文本的利用――作为分类的第三阶段。由于上下文描述内容文本的利用对Deep Web数据源自动分类的影响要比前两者小,因此,本文将其单独于查询接口表单作为第三阶段的辅助分类。与文献[2]的方法相比,本文去除了噪音信息,找出了真正的Deep Web上下文描述内容文本。本文的上下文描述内容文本发现算法是利用文本块中出现的满足上下文描述内容文本特征的多少,来判断它是上下文描述内容文本的可能性的。

2.2 领域的确定

本文中提出的三段式逐步求精的中文Deep Web数据源自动分类方法是基于Deep Web数据源与领域知识库中主题之间的相似度实现的。而Deep Web数据源与领域知识库中主题之间的相似度又包括:Deep Web查询接口表单特征内容文本与领域知识库中主题文档之间的相似度Sim(P,Y),Deep Web数据库内容摘要与领域知识库中主题文档之间的相似度Sim(D,Y),上下文描述内容文本与领域知识库中主题文档之间的相似度Sim(M,Y)。

在分类的第一阶段得到的Sim(P,Y);第二阶段得到的Sim(D,Y);第三阶段得到的Sim(M,Y) ,它们的具体计算方法描述如下:

1)Deep Web查询接口表单抽取特征内容文本pdj用一维向量(pw1,j, pw2,j,…, pwt,j)表示,其中pwi,j为权重。

2)Deep Web数据库的内容摘要CS(D) 用一维向量(w1,w2,w3……wt)表示,其中wi为权重。

3)Deep Web上下文描述内容文本mdj用一维向量(mw1,j, mw2,j,…, mwt,j)表示,其中mwi,j为权重。

4)领域数据库中每个主题描述信息文档ydj用一维向量 (yw1,j, yw2,j,…, ywt,j)表示,其中ywt,j为权重。

本文将使用如下余弦相似度公式计算Sim(P,Y)、Sim(D,Y)以及Sim(M,Y):

下面以Deep Web查询接口表单特征内容文本与领域知识库中主题文档之间的相似度Sim(P,Y)的计算为例来说明Sim(P,Y)、Sim(D,Y)和Sim(M,Y)的计算方法。

即

由于Deep Web查询接口表单特征和数据库内容摘要本身直接就是数据源的信息,而上下文描述内容文本块是间接的反映Deep Web查询接口及后台数据库内容,因此,很显然上下文描述内容文本的利用对Deep Web数据源自动分类的影响要比这两者小。在本文的分类算法中,设置两种不同的分类影响因子ud和ux:Deep Web查询接口表单特征和数据库内容摘要的利用对应的是较大的影响因子ud,而上下文描述内容文本利用对应的是较小的影响因子ux。在本文中将Sim(P,Y), Sim(D,Y), Sim(M,Y)都乘以其相应的分类影响因子ud或ux,并且将这三项乘积相加就得到数据源与领域知识库中主题之间的相似度。因此,可以得到确定Deep Web数据源所属领域的计算公式,如公式(4):

接下来,就是依据公式(4)来确定Deep Web数据源其所属的领域:首先,依据公式(4)计算Deep Web数据源与领域知识库中主题之间的相似度值,然后将主题(领域)依据这个相似度值降序排列,选取k个与Deep Web数据源相似度值最高的主题,该相似度值最高的k个主题就是这个Deep Web数据源所属的领域主题。如果每个数据源只属于一个主题,即k=1。

2.3 自动分类系统的设计

图1是三段式逐步求精的中文Deep Web数据源自动分类系统的模型图。

该分类系统输入的是包含Deep Web 查询接口的页面和数据库(即,一个数据源);输出的是该数据源所属的领域主题;它主要由第一阶段模块、第二阶段模块、第三阶段模块以及领域确定模块组成。在图中,领域知识库主要为上述模块中的相似度比较提供领域主题文档。本文的领域知识库主要参照了雅虎中文的分类目录体系,使用了其分类目录的前一、二层作为主题和子主题,并且使用一个主题目录下所有子目录中出现的所词汇集合作为该大主题(领域)的描述信息。该系统还对各个模块的分类依据信息进行了标准化,该过程包括:“基于‘词元’的中文分词”、“同义词替换”和“以空间向量模型表示”几个部分。本文中的“词元”字典和同义词字典都是以雅虎中文分类目录词为基础的,并与分类领域密切相关。

3 实验

本文针对中文站点,在前文所述的自动分类系统上进行了实验。实验数据集是人工收集的392个中文数据源,表1给出了这些Deep Web数据源人工分类结果。

本文将三段式逐步求精的中文Deep Web数据源自动分类方法分别与单纯的Pre-query分类方法、单纯的Post-query分类方法、无影响度差别的文献[2]的分类方法进行了比较实验,并采用了评估文本分类的指标:查准率、查全率和F1值。实验结果如表2所示。

从表2可知:对于实验数据源,本文的自动分类方法比单纯的Pre-query分类方法、单纯的Post-query分类方法以及无影响度差别的文献[2]的分类方法的分类效果都要好(查全率、查准率和F1值都有相应的提高),对其方法都起到了一定的改进作用。

表2 几种自动分类方法的分类结果比较

4 结论

本文的三段式逐步求精的中文Deep Web数据源自动分类方法将Post-query和Pre-query方法有机地结合起来,并且设置了两种不同的分类影响因子,通过三个阶段逐步提高了中文Deep Web数据源自动分类的效果。

本文的贡献在于:它解决了单纯的Pre-query分类方法无法对不包含任何基于领域特征属性的简单Deep Web查询接口表单所对应的数据源分类的问题;并且解决了单纯的Post-query分类方法,在Deep Web数据库的记录具有较多属性时,其分类结果的查准率、查全率和F1值比较低的问题。还提出了三种分类依据信息对自动分类的影响度有差别的问题,改进了文献[2]自动分类方法。它为目前的中文Deep Web数据源自动分类方法研究提供了一种新的参考。

参考文献:

[1] B He, T Tao, K C C Chang. Organizing structured web sources by query schemas: a clustering approach[C]. In Proceedings of the 13th Conference on Information and Knowledge Management. Washington: ACM Press,2004.22-31.

[2] Barbosa L, Freire J, Silva A. Organizing hidden-Web databases by clustering visible Web documents. In: Doqac A, ed. Proc. of IEEE the 23rd Int’l Conf. on Data Engineering.I stanbul: IEEE Computer Society, 2007. 326-335.

[3] Yih-Ling Hedley, Muhammad Younas, Anne E James. The categorisation of hidden web databases through concept specificity and coverage[C].In proceedings of the 2005 international workshop on web and mobile information Systems,2005:371-376.

[4] 刘伟,孟小峰,孟卫一.Deep Web数据集成问题研究.科技报告,WAMDM-TR-2006.3-7.

三段式逐步求精的中文Deep Web数据源自动分类

优秀范文