首页 > 范文大全 > 正文

历史人物的知识修正与获取

开篇:润墨网以专业的文秘视角,为您筛选了一篇历史人物的知识修正与获取范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本文主要是对历史人物知识修正获取进行研究,探讨如何从历史人物简介中获取人物知识。由于自然语言技术目前尚不足支持自动的知识获取,半自动获取方法是一种可行的方案。本文在总结历史人物知识描述的特点基础上,提出了一种知识修正的方法,它是自然语言到目标知识表示语言的过渡桥梁。同时,我们还介绍使用该方法在历史人物知识获取中获得历史人物知识库。

关键词:历史人物知识获取;历史人物知识表示;合一算法;知识修正

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)17-21379-03

1 引言

近年来,从文本中获取历史人物知识受到很大关注,并且成为一个重要的研究领域。一般而言,从文本中获取历史人物知识有3种途径:第一种途径是从文本中直接自动的抽取概念和关系。然而,一个完全自动的方法并不是总有效的,因为文本知识往往是有二义的、不规则的。因此,如果在机器没有一定量的“背景知识”时,实现完全自动获取是不现实的。例如:若抽取飞机自卫电子对抗设备这一概念,一个获取算法需要一定的背景知识。第二种途径是专家知识获取。在构造专家系统时不可避免地会遇到专家知识获取的“瓶颈”问题:尽管专家擅长给出例子和其他形式的决定,但难于精确表达他的知识,因此,直接从例子中构造出规则才能缓解这个问题。第三种途径是半自动的获取方法,这需要知识工程师的必要干预。

从文本中获取历史人物知识是知识获取和创建知识库的重要途径之一。而要获取历史人物文本知识常常会涉及到多种知识源的问题,不同的知识源可能会引起下面的问题:(1)知识的不一致性,例如:概念名称的不一致性、主旨不同制式元的知识之间本身的不一致性。(2)知识粒度不同,即不同知识源描述同一概念或事件的详细程度不同,甚至缺少一定的知识描述。(3)知识的精度不同。

那么,如何发现历史人物知识之间的不一致性,尽量保证所获取知识的完备性和精确性?这就是建立大型专业历史人物知识库系统的关键问题之一。另外,从知识服务的角度来说,如何将相关的知识联系起来,这也是值得讨论的问题。

很显然,要获取到精确一致的较完备的历史人物知识,知识修正是很有价值的方法,许多学者对知识修正作过有益的研究[3-6]。为此,本文提出了一种知识修正和获取方法。该方法主要有两部分构成:第一部分是合一求精算法和知识修正方法,目的就是尽可能获取到更完备的、精确一致的历史人物描述;第二部分是编译系统.该系统通过对规范概念框架的编译、分析和知识连接而最后生成历史人物知识库。

该方法的特点:(1)首先将文本知识中的历史人物转化成框架的形式,以便修正知识,保证了所获取知识的一致性;(2)基于框架抽取和合一求精过程,保证了所获取知识的小粒度和高精度。

2 文本知识的特点以及概念的表示

2.1 文本知识的特点

目前,我们主要从中国历史人物[7]和《中国历史杰出人物》[8]中获取历史人物知识.历史人物文本知识主要有以下5个特点[1]:

(1)历史人物知识大多属于事实性知识或结构性知识或过程性知识;

(2)历史概念主要分为概念性概念、同型性概念和客体:概念性概念主要是上层概念,属性取值待定;而同型性概念是指属性取值固定的,型号是一样的。客体就是具体的个体;

(3)历史人物知识一般是用从上到下(Top-Down)的方式描述的.描述历史人物对象的知识元素分布在不同的段落里;

(4)历史概念有多种不同的描述角度;

(5)不同知识源的知识之间存在如下问题:知识不一致,知识粒度不同和精度不同。所谓的不一致主要有以下的常见形式:分类标准的不一致,有内在约束关系属性的属性值之间的不一致,同一历史事件/概念的名称不一致和属性的属性值的类型不一致。

下面,举例说明两种历史人物知识源之间的知识是不一致的、粒度不同的。

例1:概念名称描述的不一致性

伟大的马克思主义者,无产阶级革命家在1893年12月26日生于一个农民家庭。毛润之,1893年12月26日生于湖南湘潭韶山冲一个农民家庭。事实上,“”和“毛润之”都是同一个军事人物。

在《浙江通志、奉化市志》中描述的是,而在《蒋中正家事启示》中描述的却是蒋中正。事实上,“”和“蒋中正”都是同一个军事人物。

例2:属性的属性值类型不一致。例如20世纪80年代和1980年。

例3:属性的属性值精度不同。 例如战斗机的作战半径很广和作战半径约1500千米。

例4:知识粒度不同:在描述“”时, 第一种描述为“,湖南湘潭人,1893年12月26日生于一个农民家庭”,而第二种描述为“1893年12月26日生于湖南湘潭韶山冲一个农民家庭”。如果提取一个属性“出生背景” 第一个知识源的属性值为:生于一个农民家庭,而第二个知识源的属性值为:生于湖南湘潭韶山冲一个农民家庭。因为后者描述更详细,所以知识粒度更细。

2.2 概念的表示

Def Concept 概念名C

{属性1:

属性2:||…|

……

属性m:||…|

关系1: ||…|

……

关系w: ||…|

词料集:同一词集|上下义关系词(Hyponymy)集|反义关系(Antonymy)词集

公理集:属性公理集|关系公理集

转换函数集:时间转换函数 |模糊转化函数|一致性检查函数

例如:Def Concept

{出生日期:1893年12月26日

身高: 1.83米

性别:男

年龄:83岁

籍贯:湖南湘潭人

政治面貌:党员

……

}

3 基于多值上下文的知识修正与获取

3.1 知识修正与知识获取

我们的知识获取方法主要有三个阶段(见图1):第一步“人-机交互”的概念框架抽取和多值上下文抽取阶段;第二步知识修正阶段;第三步编译器对规范框架进行语法检查,并将相关的知识进行合并、连接,最后形成历史人物知识库。 知识修正主要包括:知识求精和知识一致性检查。知识求精主要通过合一求精算法实现,一致性检查主要通过概念框架的内部验证和概念之间的交叉验证实现。其中,椭圆表示知识的说明体,长方形是对知识的处理,箭头表示知识的流向和处理的顺序。

下面,主要讨论第2步的合一求精算法.假设不同知识源对概念C的属性描述部分分别为:C=C1={,...}, C=C2={,...}。

合一求精算法的描述如下:

(1)令概念C’={},即初始化为空集。

(2)取出C1中的第1个序偶/*初始时i=1*/。

(3)考察C2中的每一个序偶.若m i =m’j,并且BT(,)=1。其中BT表示判断谓词,即是否满足约束条件,若满足相同的约束条件,BT为真;否则为假。

Case1:若Vi是V’j的子串,则将放入C’,同时在C1 和C2中分别删除和;若V’j是Vi的子串,则将放入C’,同时在C1和C2中分别删除和;

Case2:若存在转换函数f,使得f (Vi)V’j, 则将放入C’,同时在C1 和C2中分别删除和;若存在转换函数f,使得f (V’j)Vi, 则将放入C’,同时在C1 和C2中分别删除和;

(4) 重复步骤(3),直到考察完所有的为止.若对所有的有mi≠m’j,或BT(,)=0,将放入C’;

(5)重复步骤(2)(3)(4),直到C1的属性部分为空集为止;

(6)若C2的属性部分非空,则将剩余部分复制到C’;

(7)对C1 和C2的关系部分、词料库、公理集等做类型操作.最后得到较完备的概念C’的描述。

(8) 对C’进行一致性检查,利用公理集检查相应属性的属性值或关系的关系值的一致性。

(9) 通过属性联通学习概念的其他名称,修改同义词库。

一致性检查是知识修正中很重要的环节。首先,通过概念本体中的属性公理和一致性检查函数可以对概念框架进行内部检查,以便发现不一致的知识;然后,通过有FCA的理论从历史人物文本中所获取的属性依赖集对概念框架进行交叉验证,发现不一致的知识。因为,所用的属性公理是可靠的,所以当发现不一致时就说明概念框架是不一致的;最后,对发现的不一致的知识进行修正,得到协调一致的概念框架系统。

有了较精确的协调一致的概念框架系统,就可以进行知识的程序获取。类似于文献[1,10],我们运用InOut-模型(如图2的InOut模型)作为表示概念和关系的机制,在一个InOut-模型中,一个接点代表一个概念或属性或关系或相应的值,并且每个接点都对应仪一个InOut-序列(包含概念和关系间的连接.一个接点的InOut-序列具有如下的形式:来源,语义关系,目标。语义关系可是属性。首先,编译器对每个概念框架进行语法检查。如果合法,则编译器生成这个框架的InOut-模型。否则,反馈出错信息。最后,编译器将相关的InOut-序列连接起来,形成更大的InOut序列,最后生成历史人物知识库。

3.2 该获取方法的特点

该方法的特点:(1)首先将历史人物知识中的对象概念(Object Concept)提取转化成多值上下文,然后利用形式概念分析(FCA)的理论刻画出属性之间的各种依赖关系和相应的概念格,以便修正框架知识,保证了所获取知识的一致性;(2)基于概念本体的框架抽取和合一求精过程,保证了所获取知识的小粒度和高精度。通过知识求精和知识修正使得多个知识源之间的知识粒度、知识精度和不一致性得到修正,保证了所获取知识的质量。

4 总结

本文首先介绍了历史人物知识的特点,并举例说明了不同知识源的知识之间存在的一些重要问题:不一致性,知识粒度不同和知识精度不同等。基于上述问题,我们提出了一种历史人物知识获取方法。该方法有两大部分组成:第一部分是基于框架的合一算法,用来合并相同的概念,以尽量保证概念的属性/关系以及属性值/关系值等的完备性和精确性;第二部分是编译系统。该系统通过对文本的编译、分析和知识连接而最后生成历史人物知识库。

实践证明,利用合一算法可以加快文本知识到规范化文本知识的转化过程, 保证所获取到一致的、完备和精确的概念描述,从而提高文本知识获取的效率和质量。我们方法的重要基础就是需要创建大量的历史人物概念本体以及建立相应的公理以及创建概念本体和公理的质量。将来,我们将进一步整合和优化创建的概念本体和公理,以便更高效地获取领域知识。

参考文献:

[1] Lei Yuxia,Cao Cungen, Sui Yuefei. Acquiring Military Knowledge from Texts in the Electronic Encyclopedia of China.ICYCS’2001.Vol.1,P:367-371.2001.

[2] 雷玉霞,曹宝香.基于知识分析的军事知识联通研究[J].信息技术与信息化, 2005,(04):126-128.

[3] 郝天永,曹存根.基于PADL的古代人物简历知识获取[J].计算机科学, 2005,(03).

[4] Santos,E.,Jr.Dinh,H.T. Consistency of test cases in validation of Bayesian knowledge-bases[J].Tools with Artificial Intelligence, ICTAI 2004,P: 468- 475, 2004.

[5] D Richards, P Compton. An alternative verification and validation technique for an alternative knowledge representation and acquisition technique[J].Knowledge-Based Systems. Volume 12, Issues 1-2 , P:55-73, 1999.

[6] C Vicat, P Brezillon, C Nottola.Knowledge validation in the building of a knowledge-based system[J].Expert Systems with Applications, P: 391-397,1995.

[7] SA Wallace, JE Laird. Toward automatic knowledge validation.ai.eecs.umich.edu.2002.

[8] Bernhard Ganter,Rudolf Wille. Formal Concept Analysis: Mathematical Foundations.Springer,1999.

[9] LEI Yuxia. Attribute-based Analysis of the Part-whole Relation on Artifacts. The proceedings of the china association for science and technology. Vol.2 No.4:566-569, 2005.

[10] Cao Cungen. Extracting and Sharing Knowledge from Medical Texts. Journal of Computer Science and Technology, 2002,(03):295-303.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文