开篇:润墨网以专业的文秘视角,为您筛选了一篇谁来取代万维网范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【摘 要】万维网在进行信息搜索时会显得有些“笨”,人们期待有一个更“聪明”的网络能够取而代之,那就是语义网。语义网及其具有革命性的智能推理与技术,将在很大程度上改变现有互联网的运行模式甚至人们的生活方式。
【关键词】万维网;语义网
WWW已成为许多人口中“网络”的代名词,其全称是World Wide Web,中文名称“万维网”。信息的自由化和信息提供的简单化促进了万维网的繁荣,使之成为当今使用最为普遍的网络。然而,随着社会的迅猛发展,人们对信息的需求越来越高,开始追求更理想的网络,语义网在这样的环境下应运而生。
1.万维网简介
万维网的发明者蒂姆・伯纳斯・李(Tim Berners Lee)1980年构建的ENQUIRE项目,是一个类似维基百科的超文本在线编辑数据库。尽管与现在的万维网大不相同,但其核心思想有许多相同之处。1989年3月伯纳斯・李在《关于信息化管理的建议》一文中提及ENQUIRE并描述了一个更加精巧的管理模型。1990年11月12日他和罗伯特・卡里奥(Robert Cailliau)合作提出更加正式的关于万维网的建议,并于1990年11月13日在一台NEXT工作站上写了第一个网页以实现其文中想法。万维网从此开始了它的发展历程。
与传统的信息资源相比,万维网上的信息资源具有动态性、重复性、非结构化、非规范化的特点。因其信息存在不稳定性和不可靠性,质量得不到保证。
2.HTML技术
HTML(Hyper Text Mark-up Language)技术在万维网的发展历程中起着关键性作用,HTML即超文本标记语言,是WWW的描述语言。它允许网页制作人建立文本与图片相结合的复杂页面,这些页面可以被其他任何人网上浏览到,无论使用什么类型的电脑或浏览器。HTML的简易性使万维网得到迅猛发展。用户通过浏览器可在任何时间、地点方便地浏览各种来源的HTML文档,并可通过超链接技术将不同的资源和信息连接起来。现在的网络资源大都是以超链接的形式进行组织和联系的。
中国语言博大精深,语言文字本身的语义模糊性和歧义性增加了机器分析的难度。目前万维网由大量HTML页面组成,其内容是人们可读、可理解的;但对于计算机而言是不可理解的,使得Web上的内容难以由计算机做有意义的自动处理。例如,人类在理解head这个单词时,会根据语言环境判断它的含义是“领导”还是“头部”,但计算机却很难分辨。另外,网络自由宽松的环境便于人们利用各种形式的信息载体信息,信息量的迅猛增长引发了“信息迷航”和“信息过载”等诸多问题。计算机在采集、分解和组合万维网中的信息时有些力不从心。这时,人们渴望出现更“聪明”的网络。
3.语义网的概念
为改善当代万维网信息不利于计算机自动处理的现状,万维网的创始人Tim Berners-Lee于1998年提出了有关下一代万维网的构想――语义万维网(Semantic Web)。语义万维网是一个梦想:期望Web上的数据通过另一种不同于现在的方式描述和链接,使这些数据不仅能以各种灵活的方式展现出来,也能被不同的应用程序所自动处理、综合、重用,网页蕴含的语义信息能使计算机完成大部分的自动化处理工作,从当前“机器可阅读”的万维网扩展为“机器可理解”的语义万维网。
Tim Berners-Lee在和当代万维网的对比中,对语义万维网的描述如下[1]:语义万维网是对当前万维网的延伸和扩展,其信息具有定义良好的含义,计算机能根据概念的定义声明和逻辑推理规则发现资源对象的含义,使得机-机之间以及人-机之间都能够更有效地合作处理。在语义万维网中定义和链接的数据能被各种不同的应用以更为有效的方式查询、重用和集成。
语义网的信息具有充分的、完备的语义定义,能够在计算机之间以及人与计算机之间建立语义上的理解与合作。在一定程度上,我们可以认为语义网是能够理解语义的万维网,它将成为未来的万维网。语义网,不仅可以描述现有网络中的媒体资源(如网页、图像等),还可以描述人、地点、组织和事件等对象。它不仅包括资源之间单纯的超链接关系,而且可以表示上面提到的对象之间的不同关联。通过对领域知识的概念建模和数据语义的明确表达,语义网能够为用户提供更高层次的服务。
近年来,语义网的研究已在国内外掀起了阵阵热潮,并出现了一些应用性实例。在美国,语义网技术已被应用于医学界用于描述医学术语,美国国立虚拟天文台、国防部高级研究计划局也都饶有兴趣地研究语义网技术在各自领域中的应用。在欧洲,欧洲委员会投资创建了Ontoweb,该网络的主要目标是把基于ontology的方法和语义网工具等方面结合起来,Ontoweb是不同兴趣小组相互交流的平台。在国内,语义网技术也逐渐应用于医学、商业等各个领域,许多大商业公司、科研机构也纷纷参与到语义网的研究中。
在学术界,Tim Berners-Lee提出了语义网的层次架构,该架构由七个层次组成[2]:
第一层:统一字符编码(Unicode)和统一资源定位符(URI)。Unicode用于处理资源的编码,保证使用的是国际通用字符集,实现信息的统一编码。URI支持语义网上对象和资源的精细标识,为精确信息检索打下基础。
第二层:XML+域名空间(Name Space)
+XML模式(XML Schema)。XML(eXtensible
Markup Language,可拓展标记语言)来源于SGML(Standard Generalized Markup Language,标准通用标记语言)。SGML是标记语言的标准,XML省略了SGML中复杂和不常用的部分,是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,XML允许用户创建属于自己的标签(tags),因此称为“可拓展”,XML并没有为我们提供任何已经定义好的标签,它只是提供了一个标准。利用这个标准,用户可以根据自己的实际需要定义一套标签,即一种新的标记语言。XML将资源信息的结构、内容与数据的表现形式进行分离,确保语义网的定义。
第三层:RDF+RDF模式(RDF Schema)。资源描述框架RDF(Resource Description Framework,)是用于表达资源的元数据信息,其基本思想是:用URI来标识事物;将一切可以在万维网上标识的事物(具体的或抽象的,存在的或不存在的)统称为“资源”;用属性(Property)和属性值描述资源。RDF使用主体、谓词和客体描述陈述。主体表示区别其它事物的部分,谓词表示主体所持有的各个属性,客体表示各个属性对应的属性值。通过对主体的属性填入相应的值,描述关于主体的元数据,一个这样的三元组可以描述关于主题的一个特性,如图1所示。
图1 RDF表述模型
该层为资源描述提供统一的通用框架和实现数据集成的元数据解决方案,RDF和RDFS用于对URI标识的对象进行陈述。
第四层:本体(Ontology)。用于在信息结构和信息内容分离之后对信息作完全形式化的描述,描述资源本身以及各个资源之间的语义信息。
第五层:逻辑(Logic)。用于提供公理和推理规则。
第六层:证明(Proof)。对逻辑层产生的规则进行证明,从而判断推理是否正确。
第七层:信任(Trust)。用于保障信息交流安全可靠。
4.结束语
语义网的突出特点是对信息的“理解和推理”能力,它能够在隐藏的编码中明确指出每一项的具体含义,从而使计算机“理解”信息内容。它还能让计算机在“理解”信息之后,根据已有数据和规则进行逻辑推理和自动处理。我们期待语义网技术早日成熟,使网络更好地为人类服务。
参考文献:
[1]宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004.
[2]刘兴.基于语义网的网络管理服务处理机制[D].北京邮电大学,2011.
[3]黎明.基于语义网的信息检索技术的研究[D].南京理工大学,2007.
[4]黄果,周竹荣,周亭.基于语义网的信息检索研究[J].西南大学学报(自然科学版),2007(01).
[5]Guarino N,Masolo C,Vetere G.,OntoSeek:Content-Based Access to the Web.IEEE Intelligent Systems,1999,14(3):70-80.
作者简介:李静(1979―),女,湖南邵阳人,主要从事一线教学工作和计算机应用研究。