首页 > 范文大全 > 正文

近年来国外Folksonomy的改进研究进展

开篇:润墨网以专业的文秘视角,为您筛选了一篇近年来国外Folksonomy的改进研究进展范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]针对分众分类这种信息组织方式的缺陷,从提取folksonomy标签之间的语义和增强folksonomy的语义关系两个方面总结国外近年来有关分众分类的改进研究。重点阐述增强分众分类语义的三个方面,即扩展folksonomy系统本身的语义关系、语义网增强folksonomy的语义和本体与分众分类的融合;希望通过对国外近年来folksonomy改进研究,为我国进行相关研究和实践提供参考。

[关键词]folksonomy 标签 本体 语义网

[分类号]G250.76

1 引言

伴随着Web2.0的出现,一种新兴的、自下而上的、分众的网络信息组织方式――Folksonomy逐渐流行起来。Folksonomy一词最初是由Thomas Vander Wal所创,是Folks(一群人、一伙人)和Taxonomy(知识分类法)组合而成的新词汇,称其为“由下而上的社会分类法”。在分众分类法中,用户群体可以自由选择一个或多个标签(tag)描述某个资源,而不必受限于一个预先设定好的规范词表,而且这种描述是所有用户共同参与,系统将不同人标注同一资源的标签汇集起来,以供检索和共享。

笔者通过检索国内相关文献了解到,我国有关分众分类法的研究还处在初级阶段,更不用说folksonomy的改进研究。因此,了解和总结近年来国外有关:folksonomy的改进研究,对我国进行相关方面的研究和实践具有非常重要的意义。笔者主要从两个方面来进行分众分类系统的改进研究,一方面提取folksonomy结构本身的语义;另一方面通过语义网、本体等工具增强folksonomy的语义。

2 提取folksonomy标签之间的语义

2.1 提取folksonomy中的微量本体

2005年,Mika认为从folksonomy中可以提取出部分的语义关系,从而根据语义相关的标签建立“微量的本体”。为实现这个目标,作者建立标签和用户、标签和资源的相关图,每一图形代表一套语义相关的标签,通过这些网络图集合相关的标签。例如,如果许多人同时使用“慢跑”和“跑步”这两个标签标注同一网络资源,就说明这两个标签具有语义关系;如果使用标签“慢跑”的分组用户是使用标签“跑步”的分组用户的一个子集,标签“跑步”就比标签“慢跑”的含义更宽泛。这种方法虽然能表述基本的语义关系,但是这种关系并不明确。

2007年,Lux和Dsinger也试图从folksonomy中提取本体,和Mika相似,他们首先建立了一个基于共同出现(co-occurrence)的标签网,然后根据标签共现关系的策略,过滤错误的标签,整合相似的标签成集合。提取的结果是,作者可以获得一个词汇网以整合所有从原始标签中提取出的词汇。作者应用一个集群技术对所有共同出现的标签进行处理,然后把集群处理后的标签作为一个专门的词汇组,这个组定义了不同背景或不同意义的词汇,以方便更好地提取folksonomy中的语义。

2009年,Meo等人提出一种提取folksonomy的语义关系,进而形成分级的数据结构来支持用户的检索。这种方法有两个创新点:一是提出的概率技术有利于更好地区分标签的相似性和属性关系;二是提出的两个分等级的结构和两个相关的运算法则有利于形成相似标签的等级,这就使用户可通过标签的粒度找到感兴趣的标签,进而找到满足用户检索需求的标签。

上述三种方法所产生的词汇之间的语义关系来自于分众分类的标签,但是词汇之间的关系仍然没有正式本体的准确。

2.2 分析folksonomy的动态变化

2006年,Begelman等人根据folksonomy的动态变化集合相关的标签,首先标注同时出现的不同资源形成标注的空间,然后把这个新的标签空间作为一个无向图,通过标签出现的次数对一组组标签进行加权,把强烈相关的标签作为无向图的顶点和边。这就产生相关标签集,但是因为这些集合非常大,所以应用一个聚类算法去完善它们。

2007年,Halpin等人分析了folksonomies的动态变化,并根据标签使用的频率找到分布的规律。他们假设最常用的标签标注一个资源经过一段时间后还是保持一致,它们的分布遵循此原则。他们证实了假设,即对于受欢迎的网络资源通常与之联系的标签有七到十个。这些资源是社会书签服务网站提供的。作者也在标签相关图的基础上找到了最常使用的标签之间的语义关系。这些关系图的每一个节点表示环上的一个标签,根据这个标签出现的频率来给其直径加权。这些关系图边的长度是根据它们出现的频率加权,可以看成是一个用分众分类法来建立本体的可视化的工具。

2009年,Echarte等人提出一种使用模式匹配技术动态分组标签,提高分众分类质量的方法。它通过标签识别器评估标签与字典定义的标签元素的相似度,最后标签识别器把标签归类到最相近的标签组。这种方法对动态分组标签是非常有用的,首先这种模糊相似性度量匹配技术确保高效率地识别标签的类型,进而扩展分众分类的标签变换模式;其次这种选择方法有利于最大限度地识别新的未知的标签。

2.3 利用数据挖掘技术提取关系

其他文献提出应用数据挖掘方法建立folksonomies的三维模型以便更好的根据其结构检索信息。2008年,Jaschke等人提出使用形式化的概念分析技术发现用户的集合,用户集合对相同的资源分享相同的概念。为做到这一点,他们建立三元集(资源、用户、标签),即三元概念。每次用户用所有标签标注每个资源都遵循三模式。据作者说,从分众分类中提取三模式是从folksonomies建立结构化本体的第一步。因此,社会网络可以构建本体,一套标签描述本体的每个概念,这一套标签是一些用户描述特定的资源形成的。这种算法主要是发现分众分类中隐含的共享概念。

2006年,Schmitz等人应用另外一种数据挖掘技术(KDD,知识发现)从folksonomies提取关联规则。作者提取所有要素以预测其关联规则,其中每对要素来自于分众分类的三元模型,即用户、资源和标签。以del.icio.us的数据集为例,作者提出了两种不同的预测,关联规则有两种类型:①用户指定一些资源的某些标签往往可以指定那些资源的一组标签;②用户用一组标签标记特定的资源往往也可以指定另一组资源的那些标签。虽然这些关联的关系对识别不同标签、用户和资源的关系是可能的,可以应用在推荐系统上,但是它们并没有表明关联的本质。

3 增强folksonmy的语义关系

仅仅依靠分众分类本身的结构提取语义虽然是一种简便易行的方法,但是它并不能彻底改变分众分类缺乏语义的现状,因此,通过特定方式增强分众分类的语义关联才是改进分众分类的最好方法。这方面的研

究近年来主要体现在扩展folksonomy系统本身的语义关系、语义网增强folksonomy的语义和本体与分众分类的融合。

3.1 扩展folksonomy系统本身的语义关系

2005年,Gruber中指出,本体和分众分类并不是对立的,并提出建立一个“本体的分众分类”,扩展了folksonomy系统本身的语义关系。“标签本体”是一个本体的方案有助于形成正式化的标签系统。这个模式有四个实体来描述标签系统:标记的对象或资源;用来标记的术语;用户标记;标记发生的范围(可用于实例的服务)。

2007年,Tanasescu和Streibel应用Gruber的方法,扩展社会标注系统的标签本身以及标签之间的关系。事实上,分类标注系统可以让用户增加“标签的关系”,即一个“被标注”可以是一个关键词或是一篇文献或是一个网络资源。富集的信息可以从标签的活动中获得,像标签之间的关系。此功能可以开发语义网协助信息导航,并建议用户使用语义相关的条款查询信息。为了阻止不相关的结果,作者提出基于一些标签的解决方案,这个解决方案既有助于标记任务,也有助于评估标记系统的标签。

2009年,Pan等人提出一种用本体扩展分众分类的检索服务来减少标签系统模糊问题的方法,具体做法是首先明确本体和关键词如何相关,即这些关键词与本体的概念,属性和个体(实例)是如何相联系;然后通过个体属性值扩展、个体类扩展和个体属性扩展分别得到一套与所有个体相关的关键词、一套与所有个体类相关的关键词以及一套与所有个体的属性相关的关键词。这种在本体构成因素基础上扩展分众分类检索的方法,能够得到更多有意义的检索结果,满足用户的检索需求。

3.2 语义网增强folksonomy的语义

语义网增强folksonomy的语义主要是指利用已有的概念体系(如词表、本体等),将其概念之间的语义关系引入分众分类的系统界面和知识表达上。2007年,Passant提出用本体(主要是指特定领域的本体和SIOCvocabulary)增强社会标签系统的博客界面。这个方法通过建议用户联系他们所标注的术语和控制过的词汇来消除标签的歧义。因此,如果一个标签对应两个不同的概念,系统就可以让用户选择最适合的概念。当一个概念不存在时,用户可以自己提出一个新的概念给管理员,管理员轮流把概念放在合适的本体上。社会标注系统有利于本体的构建,这反过来有利于消除标签的歧义。

2007年,Angeletou等人提出语义可以增强folksonomy标签之间的语义关系,这主要是通过已获得的语义网(harresting the Semantic Web)实现的,即从在线的本体中动态选择和合并相关的知识。这种语义增强的算法主要包括两个阶段:①概念确定,即通过提取所有语义术语(sWT,Semantic Web Terms)明确每个标签的含义,SWT的标记和标签是对应的;②关系发现,即在前一个阶段的基础上明确所有成对的SWTs的语义关系:包含关系,不相容关系,同类关系,同族关系等。这种方法其实就是输入一组隐含相关的标签,最后输出:①通过明确标签之间的明确语义关系获得知识的结构;②一组在其集合中没有任何与语义相关的标签或语义网根本没有涉及的标签。

2008年,Angeletou等人介绍了FLOR的概念,它是一个自动整合词汇网(WordNet)和现有本体的知识自动富集folksonomy的机制。这种算法首先输入一组标签,然后通过词汇加工、词义确定和概念扩展、语义富集三个步骤,最后输出富集后的标签。2009年,他们在先前研究的基础上,把上述方法的步骤扩展到四个,即词汇加工、词义确定和概念扩展、语义富集以及语义聚合,这样用户不仅可以找到合适的标签,更可以迅速找到一组组分组好的标签,更利于用户检索和查询。上述几种语义增强的方法都在实验中取得了一定的成效,但是分众分类很难映射到现有词表或本体的概念上,因此具有一定的局限性。

3.3 本体与分众分类的融合

语义网和社会网络是两个快速增长的领域,既相互独立又密切联系。一方面,本体方面代表自上而下的模式,缺乏灵活性和可扩展性;另一方面,社会网络的分众分类代表了自下而上的模式,其中包括非结构化的数据和缺乏语义,从而导致缺乏准确性和可复用性。2008年,学者Gruber提出了集体知识系统(colleetive knowledge systems)这一概念,它是集体智慧不同于社会网络的收集智慧,它整合了社会网络的收集知识和语义网的知识表达和推理机制。因此,将分众分类系统的易用性和语义网的形式化结合起来构建一个混合系统有很大的潜力,这方面的研究一直是改进分众分类系统的关键领域。

3.3.1 构建分众分类的本体 Gruber早在2005年就提出了“标签本体”这一概念,2007年更进一步深化了这种方法。标签本体是可以识别的、正规化的概念化标记,是建立在语义层次的本体技术,它有助于形成形式化的标注系统。这个模式主要通过四个步骤来实现:①核心概念标签,形成一个四元关系,即标签(对象,标记,标注器,资源);②限定“标签”,即澄清标注的含义,需要设计不同类型的关系;③负面标签,即过滤“坏”标签。这时候可以添加一个关系一极性参数,从而变成五元关系即标签(对象,标记,标注器,资源,+或-);④标签标识,最后本体需要正式识别对象、标记、标注器和资源的定义。通过语义网提供了一种很方便的方法来描述网络资源,即通过采用其对应的唯一资源标识(URI)来标识。总之,有一个标记数据本体,或其他社会数据的相似本体,用户就能够通过网络更好的查询、整合网络上的资源。

与Gruber提出标签本体的概念不同,2007年,学者Damme等人提出了FolksOntology这一把分众分类整合到本体的方法。他们认为分众分类系统体现社会互动性,其应用有利于本体的建立和维护。具体而言,首先通过过滤算法(通过字典、词汇网、谷歌和维基百科检查标签是否有拼写错误)检查所有标签的拼写是否正确;然后整合folksonomies、相关的使用数据和社会网络的统计分析,在线词汇资源如词典、词汇网、谷歌和维基百科,本体和语义网资源,本体映射和匹配的方法这些资源帮助我们通过网络社会交互系统构建本体;最后,建立和推动用户参与机制来验证提取的所有信息资源。这种方法并不是完全通过自动化的方法创造本体,而是一种半自动化的方法加上人类的集体智慧。因此,这种方式比较客观,更能满足用户的实际需求。

3.3.2 标签聚类和映射本体 标签聚类和映射本体也是一种整合本体和分众分类的一种方法,其主要应用的是本体的映射技术。2006年,Sabou和MottaTM介绍了识别成对聚集标签的概念;2007年,Angeletou提出使用

本体映射技术自动化处理的方法。他们的算法是先根据传递性的推理机制识别成对的词汇,然后通过叙词表和现有的本体寻找成对的词汇之间的语义关系。他们的实验结果表明,这种方法需要根据已有的本体推断标签之间的语义关系,这些标签需要很好的覆盖范围。

2007年,学者Specia和Motta Llgl提出了一个方法,即把分组的标签聚合起来,然后把这些标签映射到语义网的本体上。这主要是通过一系列的过程实现的,包括清理标签,分析同时出现标签之间的关系,聚类基于相同信息的标签,最后把一组标签映射成本体的结构(概念、特性或实例),提取标签之间的语义关系。此方法的结果是获得一组组与本体的元素相关的标签,通过这些元素构建彼此的关系,这可以叫做局部本体。此外该方法也可用于支持本体演化和发展。

2008年,学者Ghali沿袭了Specia和Motta2007年提出的本体映射方法,把社会网络和语义网的融合分为三个主要阶段:①过滤社会网络中错误的标签;②基于共生的理念对非结构化标签进行分组;③把已分组标签映射到相匹配本体。具体说:①从Flickr输入是一套非结构化标签,这些标签使用谷歌API进行筛选;②对这些标签进行分组,形成标记之间的关系;③使用语义网工具(例如Swoogle和本体)对已分组的标记和选定的本体元素进行映射;④从结构化标签创建一个结构化的分类体系。总之,这种本体映射的整合方法既有利于本体构建,又增强了分众分类的语义。

3.3.3 建立本体的分众分类模型

其他文献则利用建模的方法建立本体的分众分类模型,更好地融合两者。2007年,Echarte等人提出一种建模方法,即在分众分类系统中使用本体,提取结构化信息(本体)的知识来建立一个简单协作的方式。建模的方法遵循Gruber提出的标签本体的五元结构,即标签(对象,标记,标注器,资源,+或-)。这个模型包括一个本体,它是使用本体编辑工具(tool Prot6g6)设计的本体语言。这个本体包括以下类:来源、资源、标签、用户、标注、标注标签和极性。这些类客观地表现了分众分类的知识模型。这个方法的实现要对类和特性进行一系列的限制,帮助表达分众分类的知识,并能够验证产生于本体的信息。总之,这种方法包括:①本体能够用来表示任何类型的分众分类;②一种算法能够把分众分类纳入本体,有利于分众分类法的演变及本体的更新。

2008年学者Passant和LaubletTM提出一个本体框架,即MOAT(Meaning of A Tag),提供了一个语义网框架来增强分众分类系统的语义。MOAT通过使用语义网资源的URIs让用户解释其标签的含义,将传统标签系统的三元素,即标签系统(用户,资源,标签)扩展成四元模式,即标签系统(用户,资源,标签,含义),用户可以把每个标签和几个URI相联系以表达标签可能的含义。其框架主要包括三个组成部分:一个轻量级的本体、MOAT服务器和MOAT客户。总之,MOAT提供了一种简单的描述标签含义的方法,最终让标签自动地嵌入了语义,使机器能够理解标签的含义进而提高检索效率。

除了上述建立本体的分众分类模型来增强分众分类语义的方法外,还有一种方法就是注重用户的贡献,让用户自动验证或纠正标签的语义模型。2009年,Limpens等人认为克服标签缺陷的最佳方法就是建立一个系统与用户相互作用来增强标签语义动态模型。这个模型通过自动处理语义关系协助用户促进分众分类的语义丰富。其目的是描述分众分类标签可能存在的语义关系,但同时要注重用户的不同意见。这种通过用户与系统相互作用的自组织方式更适合分众分类自上而下的组织结构。

4 结语

在web2.0环境下,以满足全体网络用户的共享和交流为根本出发点的分众分类系统显示出其独特的优势,但是其数据是非结构的,缺乏明确的语义关系,因此对folksonomy系统的改进研究是近年来国外研究的一个重点。了解国外分众分类系统改进的最新研究概况,汲取国外进行改进的成功经验和方法,对促进我国进行相关方面的研究将有积极的促进意义。