首页 > 文章中心 > 深度人工智能教育

深度人工智能教育

开篇:润墨网以专业的文秘视角,为您筛选了八篇深度人工智能教育范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

深度人工智能教育范文第1篇

是的,当全世界最好的运动员在里约奥运赛场用尽“洪荒之力”,挑战人类体力的极限时,人类用脑力创造出的人工智能在赛场之外展开了另一场激烈角逐。

这是一场未被列入奥林匹克竞赛项目的较量,但其精彩程度绝不亚于奥运赛场上的拼杀。

奥运就是大IP,AI都来刷存在

项目繁多,赛程密集,信息量大,给人工智能技术提供了很好的用武之地,而奥运会背后隐藏的海量注意力资源也是主要诱因

美国、中国和英国将位列奖牌榜前三名,其中中国将获金牌35块,银牌27块,铜牌20块——8月6日,奥运会刚刚开幕,微软凭借深度神经网络“掐指”算出的奥运奖牌榜就出炉了。

不只微软在借奥运之风出海。解说奥运会开幕式的白岩松还被刷屏时,百度的人工智能语音助手“度秘”就冲出来抢饭碗,为用户解说起中国男篮对抗美国队的比赛。派出写稿机器人报道奥运的更是国外有《华盛顿邮报》,国内有“今日头条”。

“奥运会的曝光率非常高,对于企业品牌推广是一个绝佳的机会。”谈到国内外企业为何在奥运会期间各显神通,展示人工智能技术,易观入口分析师赵子明认为,奥运会背后隐藏的海量注意力资源是主要诱因。此外,奥运会项目繁多,赛程密集,信息量大,也给人工智能技术提供了很好的用武之地。

在图灵机器人首席运营官郭家眼里,宣传推广自身的技术,为商业化做铺垫,只是各大科技公司不遗余力展示人工智能技术的动机之一,还有一个动机与人工智能产业目前的发展阶段有关系。

“国内外科技巨头都在砸重金投资人工智能技术,但整体来看掌握这项技术的企业还比较少,整个行业还未崛起,长远来看对市场发展并非好事。”郭家在接受科技日报记者采访时分析,这也是为什么谷歌、Facebook这些公司一直在通过人工智能技术的开源,让更多人掌握这项技术。

此次奥运会期间吸足眼球的人工智能技术,让郭家想起了谷歌的阿尔法狗与李世石之间的围棋大战,当时很多业内人士就将其看作谷歌花重金做了一次品牌营销。“但这些公司的目的不仅仅是赚钱,而是希望更多人关注人工智能技术,参与到这个行业中,推动它向前发展。”郭家说。

不只花拳绣腿,还有真刀真枪

这些技术的特点是,可以更快、更好地代替人类完成一些繁复琐碎的工作,把人工智能技术真正实用化,使它成为提高生产力的工具

无论是预测奥运奖牌榜,还是解说篮球比赛,抑或是机器人写稿,在郭家看来,做的都是一件事,即模式识别+机器学习,这是弱AI时代全球人工智能产业发展的共性。

但奥运会期间展示出的人工智能应用中,还是有一些选手给赵子明和郭家留下了深刻印象。除了写稿机器人,还有此次国际奥林匹克委员会官方图片提供商盖蒂图片社采用的摄影机器人——它可以让摄影师实现远程拍照,而且拍照方式更加灵活。

“这些技术的特点是,可以更快、更好地代替人类完成一些繁复琐碎的工作。”赵子明说。用郭家的话说,“是把人工智能技术真正地实用化,使它成为提高生产力的工具”。

奥运会只是一个缩影。在整个人工智能领域,这样的应用正如雨后春笋快速生长,体育方面也不例外。美国众筹网站Kickstarter上曾有一款叫做“trainerbot”的乒乓球陪练机器人发起众筹。奥运会开幕前的8月3日,该机器人研发团队宣称,这款产品将走进一些乒乓球俱乐部,与公众见面。这款机器人与传统的发球机不同,它可以模拟和学习各种发球方式和路线,帮助运动员和业余爱好者训练球技。

前不久,体育品牌彪马也推出一款陪跑机器人“beatbot”。这款机器人可以模拟运动员自己以及其他跑步运动员的奔跑轨迹,模拟出在什么样的时刻应该保持什么样的速度,并陪运动员训练。类似的还有橄榄球陪练机器人,它可以识别出运动员的位置并做出冲撞动作,

帮助橄榄球运动员提升冲撞技能。

这些产品最大的共同点就是把人工智能技术应用到了实用性的场景上,这些场景往往需求特别明确,而且正好可以把人工智能技术用在刀刃上。

“人工智能技术的颠覆性价值恰恰体现在这些产品之中。”郭家解释说,人们提到机器人时,第一直觉就是它们可以替代人的部分劳动,而如果这件事情逐渐成为现实,必将对整个行业甚至整个社会产生深远影响。

里约崭露头角,东京遍地开花?

今年被称为人工智能产业爆发的元年,4年后的东京奥运会将是其发展的第5个年头,人工智能在下一届奥运会上的表现无法不令人期待

回首人类奥林匹克运动120年的历史,人工智能技术与奥运会发生如此紧密的联系堪称史无前例。哪怕跟4年前的伦敦奥运会相比,里约奥运会也悄然发生了明显变化——比如,从电视画面就能看到,今年不少田径运动员都佩戴了智能可穿戴手环。

“但现在依然应该说,人工智能技术刚刚崭露头角,还没有到来。”郭家认为,这些崭露头角的技术背后潜藏着巨大的应用价值等待市场去开发。

以用人工智能技术预测奥运奖牌榜为例,虽然和阿尔法狗在围棋上战胜李世石类似,更多是一种技术上的展示,但谁也无法否认其未来的潜力。或许过不了多久,这种技术将在众多领域令人目瞪口呆,证券分析和病理分析领域可能会最先尝到甜头。

“业内很多人的直觉是,人工智能技术很快将更大规模地爆发,这个时间不会太长,少则几个月,多则两三年。”郭家说。

回到奥运本身。2016年被称为人工智能产业爆发的元年,4年后的东京奥运会将是其发展的第5个年头,人工智能在下一届奥运会上的表现无法不令人期待。更何况,其东道国日本本身就是机器人大国,也是机器人强国。

如果说,奥林匹克运动的精神是以人为本,机器人代替人参加比赛就失去了比赛的意义的话,郭家坚信,在参赛主体之外的教育和辅助环节,将会有越来越多的机器人深入渗透到奥运会的方方面面。赵子明也给出了类似的观点,“相信到那时人工智能技术将会更全面地应用于奥运赛场”。

这些预言将如何体现在下一届奥运会中,4年之后的东京将为我们揭晓答案。

深度人工智能教育范文第2篇

关键词:大数据;百度;网络招聘

中D分类号:F24 文献标识码:A

收录日期:2017年2月22日

一、引言

智能互联网飞速发展并通过一系列的技术改革,不断推动着国家各个行业进行政策调整、资源共享、产业升级与信息化创新。出于国家战略的考虑,政府规划明确建设国家大数据池具有重要意义,通过海量数据支持和算法优化后的大型计算能力,以满足企业、社会、教育不同领域对数据中心应用的需求。

大数据是一个数据的集合,涵盖所有数据类型与混杂的真实数据全体,不能被已有工具进行提取、存储、共享等操作。在处理信息能力与技术不断提高的过程中,基于大数定理(在试验不变的条件下,重复试验多次,随机结果近似必然),人们对增速惊人、时效性较短的海量数据进行整合优化与决策分析,进而预测现象与行为的发生,提供个性化的精细推荐与服务。基于理性决策有限性的特点,数据规模的庞大,无疑扩大了人们进行理性判断的基础,但是这并不意味着自动化管理和智能化。大数据为人们从更全面的角度理解不同现象和行为之间的相关关系(一个数值增强,另一个也随之变化的数理关系),提高正确决策的可能性。

在不同的领域,大数据技术的使用将人员、岗位、资源进行数据专业化的处理,增加了管理的智能化和量化,实现了后加工的增值效应。进一步的,大数据帮助政府提高国民治理能力、构建民生服务体系、惠及社会保障和就业体系、激发教育培训和人才配置、优化收入分配和创新创业机制方面都具有实践意义。目前,大数据的研究和应用主要集中于营销活动中消费者的行为和偏好研究,而在人力资源管理领域,并未明确应用于招聘方面。然而,网络招聘近年来早已凭借其范围广、信息量大、时效性高、流程简单而效果显著,成为企业招聘的核心方式。互联网发展进入新阶段以及大数据带来的管理路线与招聘思维不断变化的需求,探索互联网企业本身的招聘面临的巨大挑战和机遇具有现实意义。在人本管理思路下,针对互联网这一大环境从量变到质变的转化,审视网络招聘和企业的业务模式将要经历的变革,亦有理论意义。

百度作为中国互联网企业的巨擘之一,以丰富的数据资源与最前沿的黑科技不断影响着整个行业的发展。本文基于大数据背景对百度人才招聘现状进行评价,希望为企业吸纳、维系和激励人才提供制度保障并针对性地提出解决方案和对策建议,并以此为出发点积极推动其他互联网企业商业模式的创新以适应大环境的变化。

二、大数据时代互联网发展现状

(一)大数据应用对人力资源管理的影响。大数据对于人力资源管理的应用和影响体现在四个方面:第一,人力资源管理活动中人们工作思维方式的转变。基于海量数据的收集和分析,HR部门在引入大数据的技术同时,将要不断学习分析数据背后人员信息、岗位资源、架构调整动态等内容的潜在意义,推动企业管理新思维的不断深化和日益多元化的态势;第二,人力资源管理信息工具和数学算法的使用。例如,谷歌公司根据相关数据处理工具对员工的离职倾向和工作计划进行个性化的模型测算,从而预测员工的离职动向与职业发展途径,针对性地提出人员管理解决方案;第三,从企业人才孵化模式角度来看,大数据通过分析企业当前组织架构、业务需求和管理层级设计来优化企业人才发展模式与内部培育方案;第四,从个人与工作环境方面而言,大数据能够模拟最利于员工工作的环境,分析得到有利于员工健康和减少自我资源耗竭的工作安排,满足精细化的人员需求。

随着相关研究的增多,人力资源管理在大数据背景下呈现的趋势主要包括三点:首先,更加量化的标准将被应用于人力资源管理选人、育人、用人和留人的各个环节,包括招聘、培训选拔、人才测评、绩效考核、薪资制定、晋升规划等方面,精准处理、分析、记录;其次,结合互联网、大数据、云计算、人工智能等一系列技术背景,布局结构化与非结构化的广泛数据接口,产出大量的交互数据,从中分析得到更多的全行业适用规律,打破原有的企业边界,推动全球化的信息平台共享与人员管理;最后,人力资源管理将更好地与心理学、神经学、临床医学等结合应用,实现跨学科的合作与升级。

(二)大数据应用对互联网招聘的影响。网络招聘是基于数据搜集与计算、信息平台技术和云储备技术的迅猛发展,通过互联网平台实现人才和岗位匹配,满足求职者和招聘对象需求的过程。作为人力资源管理关键环节之一,招聘流程包括岗位需求分析与确认、人员招募、人员甄选和人员评估。传统的招聘渠道以传统媒介广告、校园招聘和招聘会等方式为主。网络招聘在传统招聘基础上,一方面借助互联网优势对候选人行为的用户画像进行大数据分析,多方面收集与综合评估候选人的专业技能、个人特质、价值观等信息进行岗位匹配;另一方面覆盖传统SNS平台、移动端APP、论坛网站与企业内部信息系统进行招聘活动,从而更好地满足招聘市场多元化需求。

中国互联网行业的网络招聘活动有三个特点:第一,金字塔式的不同梯度互联网企业呈现出不同的招聘方式和渠道,人才需求与管理模式也各有不同;第二,互联网行业业务线调整和变动频率高,人才管理成本较高,网络招聘活动的对象又具有较高识别度和特殊技能,因此如何通过内部和外部渠道为企业输入是管理者极为关注的内容;第三,与行业性质相关的是,互联网行业知识更新速度快,人才流动性大,人才竞争极为激烈,对招聘活动提出了更高的要求。

三、百度招聘应用分析

百度作为国内互联网企业的巨头之一,在人工智能、云计算和大数据方面优势显著。百度不断优化算法分析与信息平台,运用大数据带来的搜索服务技术、“多模互动”技术与“实体搜索”技术等,秉持分享与开放的理念,快速将有效数据转化为能够帮助消费者实现展现形式。从互联网招聘角度来看,百度在招聘理念、人才信息平台搭建、招聘标准及评估方面都体现了大数据在人力资源管理领域的应用。

(一)招聘理念。百度人才管理的信息化建设经历了三个时期,目前处于依靠大数据推动战略发展和业务落地的3.0时代,强调价值匹配和因人设岗。招聘需求在企业不同发展阶段,会伴随着战略转变和业务调整而发生动态波动。但是人才的积累是一个持续输出的过程,因此大数据在人才管理系统上的应用帮助企业实现候选人的实时录入,并且随着“机器学习”的发展,自动分析岗位需求进行人才精确匹配,转变过去被动的招聘理念,强调出于人才考虑的主动岗位设计路径。

(二)招聘信息平台建模。在人才管理方面,百度构建了“百度人才智库”(TIC),基于所有在百度工作过的10万内部员工信息样本,以及其他海外员工资料,在一年时间内构建了覆盖不同业务场景和事业群的第一套国内人才智能化管理方案。目前,百度的招聘立足在wintalent招聘系统,通过职位管理、候选人管理和人才库管理三部分实现从岗位需求分析、职位、简历搜寻与筛选、简历上传与入库、候选人面试安排、线上评估反馈、入职信息提交等一系列的招聘过程。

那么,为保证上述线上招聘活动的顺利开展,人才管理系统主要通过三个方面进行平台搭建。第一,多渠道数据收集和整合,包括候选人的简历、照片、附件、前期沟通与面试评估反馈信息等非结构化数据;第二,数据的分析。针对候选人工作特质与应聘的岗位直接的相关关系,智能化匹配出多维度的评估人才标准,包括技术深度或广度、项目经验、管理经验、领导力、文化适应度等。针对整体数据集合,通过区分人才管理、运营模式、文化活力、舆情掌握等进行多维度的数据建设;第三,通过分析形成候选人的画像、人才报告、企业人才图谱,从而为“机器学习”提供智能化资源,帮助管理者进行能力评审和决策。

(三)招聘人才标准。百度在招聘方面主要有三个衡量标准:最好的人、最大的空间和最后的结果。这几个标准因此对应着人才的专业技能和文化价值观、工作环境、晋升路径和项目推进、项目成果。在进行智能化和自动化数据分析与人才推荐的过程中,需要采用数据决策,减少主观判断的干预。同时,大数据的运用将大模糊企业边界,因此在进行人才标准判断的过程中需要在未来加入行业信息的影响因素,从而确定员工的最佳生产力。

四、结论

大数据的广泛应用对各个领域的发展有着不可逆的推动力。企业需要明确人工智能、云计算和大数据的未来互联网发展趋势,并保持对数据分析、建模的敏感性。在技术层面,跟进人机交互等技术,满足个体的个性化的需求。百度早已开放大数据平台,通过云、百度大脑和数据工厂对数据核心处理等能力分享给各个行业,并最近获得国家审批建立“深度学习技术及应用国家工程实验室”。从人才管理层面,大数据的应用能够帮助人力资源管理进行人岗智能化匹配和数据化分析估算,有利于管理者进行科学管理与行为预测;但另一方面,对数据的过分依赖同样不可取,最终的应用决策仍需要人为直觉与经验的帮助,缺一不可。未来的研究需要注意大数据应用与员工工作满意度、工作积极性之间的关系,以期进一步完善企业管理体系理论,并在实践中加以运用。

主要参考文献:

[1]芮绍炜.百度大数据的应用分析[J].企业管理,2015.2.

[2]鲍明刚.以“数据众筹”探索胜任素质模型构建的新模式[J].中国人力资源开发,2015.6.

[3],蔡治廷.大数据时代的大学生就业工作探析[J].黑龙江高教研究,2015.5.

[4]曹丽娜.互联网思维下的人力资源管理[J].管理观察,2015.19.

[5]高亮.百度大数据,商业新能源[J].信息与电脑(理论版),2015.19.

[6]褚吉瑞.“互联网+”时代的人力资源管理变革与创新[J/OL].经营与管理,2015.12.

[7]张义德,丁道师.互联网思维下的人员招聘选拔――以北京速途网络科技有限公司为例[J].中国人力资源开发,2015.6.

[8]程玲.浅谈大数据时代的网络招聘[J/OL].企业改革与管理,2016.2.

[9]乔嫣.“互联网+”时代人力资源管理发展趋势分析[J].经营管理者,2016.7.

[10]刘雅惠,季蓓慧,傅敏.大数据时代下搜索行业的营销传播变革――以谷歌、百度和大众c评为例[J].现代营销(下旬刊),2016.6.

[11]谷彬.互联网大数据与人才精细化管理[J/OL].调研世界,2016.9.

深度人工智能教育范文第3篇

摘 要: 介绍了传统的基于距离的相似度计算方法,针对其在距离计算中包含语义信息不充足的现状,提出了一种改进的使用WordNet的基于概念之间边的权重的相似性度量方法。该方法综合考虑了概念在词库中所处层次的深度和密度,即概念的语义丰富程度,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题。实验结果表明,所提方法在Rubenstein数据集上与人工判断有着0.9109的相关性,与其他经典的相似性计算方法相比有着更高的准确性。

关键词: 概念相似度计算;WordNet;边权重;语义信息

中图分类号: TP393.08 文献标志码:A

Abstract: The traditional distance-based similarity calculation method was described. Concerning that the method of distance calculation does not contain sufficient semantic information, this paper proposed an improved method which used WordNet and edge weighting information between the concepts to measure the similarity. It considered the level of depth and density of concepts in corpus, i.e. the semantic richness of concept. Using this method, the authors can solve the semantic similarity calculation issues and make the calculation of similarity among concepts easy. The experimental results show that, the proposed method has a 0.9109 correlation with the benchmark data set-Rubenstein concept pairs. Compared with the classical method, the proposed method has higher accuracy.

Key words: concept similarity calculation; WordNet; edge weight; semantic information

0 引言

词与词之间的相似性研究多年来一直是自然语言处理和信息检索的一部分,是正确理解文本内容的关键,在计算机语言学和人工智能及应用中语义相似性问题都比较普遍,比如词义消歧、文档分类或聚类、词语拼写纠错、自动翻译、本体学习和信息检索等。

语义相似性是比较词语之间的匹配程度也可以理解成分类学上的接近程度,比如两个概念含有共同的父概念,那么它们的相似性就比较高。但是词语之间的互联不仅仅是这种分类上的父子关系还有很多语义上的关联,这样本文引入了语义相关性的概念,语义相关性是概念之间通过某种联系而产生关联,本文用方法识别出这种关联使这种关联能被计算理解这样就达到了使用语义信息。在概念之间进行语义相关的计算都是在已经存在并建好的知识库中进行的,比如WordNet[1],WordNet是由普林斯顿大学认知语言实验室开发的一个词库。

在近几十年间很多语义相似性的算法被提出,这些方法主要可以分为以下几类:

1)基于距离度量的相似性算法;

2)基于信息量的相似性算法;

3)基于向量空间的相似性算法;

4)综合以上几种方法的计算方法。

文献[2]提出一种计算词之间的最短路径的算法,通过这个最短路径来衡量两个概念之间的相似性;Wu等[3]引入最小共同父概念来表示两个概念的共性的多少;Leacock等[4]提出的算法都是从路径长度以及概念的深度上考虑概念之间的相似性;Li等[5]则以非线性函数的形式对最短路径和最小共同父概念组合进行计算;Al-Mubaid等[6]提出了一种结合最短路径长度和最小上层父概念深度的基于簇的方法,它为每一个层次上分支结构到根节点的部分定义一个簇,使得低层次上的概念对的相似度比高层次上的相似性高;Lin等[7]提出的基于信息量的计算方法,考虑了两个概念间在知识库中的共享信息和两个概念分别带有语义信息的比率。

本文提出一种基于WordNet[1]并采用概念之间边的权重的相似性算法,概念之间的边的权重能反映概念在词库中的语义关系,一个概念越靠近叶子节点、含有的子概念越少,就说明含有的语义信息就越丰富[8-9]。在计算语义相似性时,两个概念距离越短则它们之间的相似性就越高[2]。本文在已有的距离相似性算法的基础上引入概念之间边的权重,去衡量概念在层次树中的语义丰富性,通过Rubenstein原始数据集[10]进行实验,表明该方法在计算语义相似性问题上较其他一些算法和人工判断有更高的一致性。

1 距离度量相似性算法

假设词语组成的结构是一种像树形一样的层次结构,每个节点代表一个词语或概念,Rada[2]是指代文献2吧?原来指文献1?请明确。证明了在连通不同的两个概念c1和c2之间的最短边数是衡量这两个概念之间距离的尺度。对于两个词语w1和w2之间的距离的度量可按以下三条规则进行度量[2]:

1)w1和w2是同一是“同一”?还是“统一”?请明确。个概念,则它们之间的距离为0;

2)w1和w2不是同一概念但是它们所属的词义中包含有相同的词的时候则它们的距离为1;

3)w1和w2既不属于同一概念也没有在所属词义中包含相同的词则计算它们之间的最短路径的距离。

基于距离的相似性算法最大的优点是它们计算词语之间的相似性只基于某种词库或某一本体,这样就对不同领域有更好的适应性。但是该方法最大的问题,就是太过依赖词库或本体的完整程度、均匀性和覆盖面[11],如果词库不完整或是没有覆盖足够多知识,就容易导致计算结果不正确或不符合程序的要求。而且,这种方法在计算距离的时候是根据词库的分类来计算,这容易忽略其他因素对距离度量的影响,而且这种分类关系不能作为语义相似性的度量[12]。

2 基于概念间边权重的相似性计算方法

充分利用距离相似性算法的优势,针对上述方法存在的缺点,本文改进了Li等的方法[5],采用给边加上一定权重的方式来改进算法,因为在不加权重以前边的默认权重都为1,由于没有完全考虑到概念节点所处的位置对语义相似性的影响,容易导致计算结果不精确。概念节点间边权重的影响因素很多,包括节点所处词库网络的密度、节点在词库网络中的深度、连接节点之间链接的类型和连接边的强度[13],文献[8]的结果表明连接节点之间链接的类型和连接边的强度对相似性计算的影响不大,所以在此基础上本文主要考虑前两种因素对概念间边权重的影响。

2.1 边的权重计算

在考虑概念所在层次深度和概念含有的子概念的个数情况下,计算出来的边权与路径的长度只存在较小的偏差,但是这样却能体现边权信息对词语准确度的影响,实验结果也显示出用此方法计算出来的边权信息能较大程度地拟合人工判断的结果。例如boy和person与boy和animal两对概念在词库中的距离是相同的都是4,可是显然前者的相似性更高,在引入本文方法后boy和person的距离为1.20,boy和animal的距离为1.93,可以很好地区分两者之间的相似性。

首先是概念所处位置的密度,本文采用了概念的子节点个数与所有节点的个数的比重来衡量概念的密度。一个概念所含有的子概念个数越多说明这个概念越抽象,则该概念所连的边的权重应该要取小一些的值[14];相反如果概念的子概念个数很少,则说明该概念是一个很具体的概念,所以对它所连接的边应该赋予高一些的权限。由式(1)表示了概念所处的位置的密度因子对权重的影响:

density(c1,c2)=1-ln(hypo(c)+1)ln(maxwn)(1)请补充对数log的底?若没有,请说明原因。

其中:c的取值是在c1和c2中取层次比较低的那个进行计算;hypo(c)表示概念c的子孙节点的个数,并且不考虑重复的概念节点;maxwn表示整个词库中的词语的个数,本文采用的是WordNet中所有名词的个数。

概念的深度因子对概念所连边的影响也很重要,本文在考虑深度因子的时候主要是针对其在词库中所处的层次的高低,越低的层次上的概念因为概念比较具体所以对其边所赋的权也就越大;相反在高层则概念的权相对较小,这两处表达的意思相同,是否表达错误,请核实。由式(2)来表示深度因子:

depth(c1,c2)=ln(max{depth(c1),depth(c2)})ln D(2)log的底是多少,请补充。

其中:depth(c)表示概念c在词库中的深度;D表示整个词库的深度,在WordNet中词库的最大深度为16。

在考虑了深度因子和密度因子对概念之间边的权重的影响之后,本文可以把两部分结合起来计算概念之间的权重,如式(3)所示:

weight(c1,c2)=t×density(c1,c2)+(1-t)×depth(c1,c2)(3)

其中t的取值范围在[0,1]。当t=0时只考虑了概念的深度对概念之间权重的影响;t=1时则只考虑了概念的密度对概念之间权重的影响。

2.2 改进的相似性计算方法

本文的相似性计算公式仍采用文献[5]的公式原型,在路径的计算上考虑上文的概念之间的边权重信息。通过计算最短路径上概念之间边的权重,综合路径上概念的密度和深度等因素的影响,使得源概念对之间的语义相似性计算更加精确。

Sim(c1,c2)=e-a∑w1,w2{path(c1,c2)-lcs(c1,c2)}weight(w1,w2)×eblcs(c1,c2)-e-blcs(c1,c2)eblcs(c1,c2)+e-blcs(c1,c2)(4)

式(4)中,对于blcs(c1,c2)未予交代,是否有必要补充说明一下,请核实。“b×lcs(c1,c2)”

其中:path(c1,c2)表示连接c1和c2取不同的词义的时候描述的最短路径上的概念;lcs(c1,c2)指的是概念c1和c2的最近公共祖先概念节点;weight(w1,w2)则表示词义概念w1和w2之间的边的权重,且a≥0,b>0。

2.3 语义相似性计算算法描述

输入 两个概念A和B。

输出 两个概念之间的语义相似性。

第一步 找出概念A和概念B在词库WordNet中所处的位置。

第二步 判断概念A和概念B是否是相同概念,相同则跳转到第五步,如果多义词中包含有相同的概念词语做一标记。

第三步 计算概念A和概念B之间的语义距离,取其多义词中最短路径作为两个概念之间的路径,记为Path(A,B),并保存两个概念相交的概念节点记为Lcs。

第四步 遍历Path(A,B)中相邻的两个概念节点,按式(1)和式(2)计算两个概念的密度density和深度depth,然后把density和depth代入式(3)计算边的权重并累加到weight变量中。

第五步 如果是相同概念则其weight等于0,Lcs等于两个概念中任意一个,如果是两个概念中含有相同概念词汇则weight等于1;否则weight取第四步计算出来的结果。

第六步 计算Lcs在词库中所处层次h,然后把h和weight代入式(4)计算出概念A和B之间的相似性。

3 实验结果与分析

本文的实验通过计算出来的结果之间的相关系数来衡量算法的性能,相关系数是变量之间相关程度的指标,用r表示,r的取值范围为[-1,1]。|r|值越大,误差就越小,变量之间的线性相关程度越高;|r|值越接近0,误差就越大,变量之间的线性相关程度越低。本文采用皮(尔生)氏积矩相关系数来计算两个结果之间的相关性,计算公式如式(5)所示:

rxy=∑Ni=1(Xi-)(Yi-)∑Ni=1(Xi-)2∑Ni=1(Yi-)2(5)

其中:指的是数列X的平均值,则指的是数列Y的平均值,Xi表示X数列中的第i个数,Yi表示Y数列中的第i个数。

3.1 实验方案

本文的相似性计算采用Rubenstein数据集[10],并利用WordNet2.0作为实验的词库,实验过程中首先实现了前文提到的距离相似度算法,为了进行比较,对文献[7]的基于信息量的相似性度量算法与本文提出的方法进行了比较,如表2~3所示。

3.2 概念间的语义相似性计算

根据上述边权算法和相似性算法,并基于WordNet词库丰富的词语来进行相似性计算。在实验中,深度和密度对概念相似性影响相当,所以取两项的权重因子t=0.5,经过多次尝试,可以验证在a=0.3,b=0.4,取定的情况下相似性算法与人工判断最接近,相关度为0.9109。

表1列出了Rubenstein和M&C进行的实验做出的结果以及各项词语的指标,其中length值的是概念对的最小距离长度,depth指的是概念对的最小上层父概念的在整个词库中所处的层次。本文的实验是基于Rubenstein[10]所做的实验结果即RG Rating,并以此来估计算法的性能。表1中的MC Rating表示的是Miller and Charles(M&C)进行的人工实验结果,M&C数据集是Rubenstein的一个子集,两者的相关度为0.97[15]。表1中的RG Rating表示什么,是否需要交代一下,请核实。

实验过程分为两个阶段:边权计算和概念间的相似性计算。本文使用M&C选取的30对概念,这些概念都进行了人工打分,打分区间在[0,4]。很多研究者都只采用了这30对词组而忽略其他词组来进行研究,大量的实验表明furnace和stove存在意义上的相似可是两者语义距离却很远导致其不是很好的测试数据[8],所以本文不考虑这组数据并选取了M&C数据集的其中27组作为本文的实验数据集。表2列出了本文方法与前述方法的计算结果,由表2数据可以发现本文方法与Li方法[5]比较接近且本文方法与人工判断的数据拟合得比较好。

本文的方法是在文献[5]的基础上的改进,不同的方法对相似度的判断都有不同的结果和准确性,在Rada等[2]刚提出距离相似度度量的时候,他的方法在当时是较准确的,随着技术的不断创新和存储结构的不断优化新的方法不断提出,计算结果的准确性也越来越高。Li提出的假设,把Resnik[16]对M&C数据集的测试出来的相关系数作为相似性算法研究的上界,也即0.9583[5]。表3列出了各种方法与人工结果的相关系数,本文方法与人工结果有较高的相关性。

4 结语

本文在Li等[5]提出的非线性方程相似度计算方法的基础上,改进了其中距离度量的标准,采用了基于边权信息的计算方法。传统的基于距离的度量方法,因为没有考虑到概念所处位置的语义信息,所以在距离相同的时候概念的相似度会惊人地相似,而考虑了概念所处位置的语义信息后则把概念的这些语义相关性充分地体现了出来。本文的实验结果与Rubenstein源数据集的相关系数为0.9109,表明该方法与人工判断的数据有较好的相关性。但是算法还有很大的提升空间,正如Li所说的,当真正的非线性函数被发现,则算法的性能会有很大的提升。由于本文的方法只考虑了一部分信息,一个概念的语义信息还有很多比如连接类型和连接强度等因素,这些信息都会影响相似性判断的准确性,所以在以后的研究过程中需要加入更多的语义相关信息使相似判断更加准确。

参考文献:

[1]

FELLBAUM C. WordNet: An electronic lexical database [M]. Cambridge, MA: MIT Press, 1998.

[2]

RADA R, MILI H, BICHNELL E, et al. Development and application of a metric on semantic nets [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 9(1): 17-30.

[3]

WU Z, PALMER M. Verb semantics and lexical selection [C]// Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 1994: 133-138.

[4]

LEACOCK C, CHODOROW M. Combining local context and WordNet similarity for word sense identification [M]// WordNet: An electronic lexical database. Cambridge, MA: MIT Press, 1998: 265-283.

[5]

LI Y, BANDAR Z A, MCLEAN D. An approach for measuring se-mantic similarity between words using multiple information sources [J]. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(4): 871-882.

[6]

AL-MUBAID H, NGUYEN H A. A cluster-based approach for semantic similarity in the biomedical domain [C]// Proceedings of the IEEE Engineering in Medicine and Biology Society. New York: IEEE Press, 2006: 2713-2717.

[7]

LIN D. An information-theoretic definition of similarity [C]// Proceedings of the 15th International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1998: 296-304.

[8]

JIANG J, CONRATH D. Semantic similarity based on corpus statistics and lexical taxonomy [C]// Proceedings of the International Conference on Research in Computational Linguistics. Cambridge, MA: MIT Press, 1997: 19-33.

[9]

SECO N, VEALE T, HAYES J. An intrinsic information content metric for semantic similarity in WordNet [C]// Proceedings of the 16th European Conference on Artificial Intelligence. Amsterdam: IOS Press, 2004: 1089-1090.

[10]

RUBENSTEIN H, GOODENOUGH J B. Contextual correlates of synonymy [J]. Communications of the ACM, 1965, 8(10): 627-633.

[11]

CIMIANO P. Ontology learning and population from text: Algo-rithms, evaluation and applications [M]. New York: Springer-Verlag, 2006.

[12]

BOLLEGALA D, MATSUO Y, LSHIZUKA M. WebSim: A Web-based semantic similarity measure [C]// Proceedings of the 21st Annual Conference of the Japanese Society for Artificial Intelligence. Berlin: Springer-Verlag, 2007: 757-766.

[13]

SUSSNA M. Word sense disambiguation for free-text indexing using a massive semantic network [C]// Proceedings of the Second International Conference on Information and Knowledge Management. New York: ACM Press, 1993: 67-74.

[14]

RICHARDSON R, SMEATON A F. Using WordNet in a knowledge-based approach to information retrieval [R]. Dublin: Dublin City University, 1995.

[15]

MILLER G, CHARLES W G. Contextual correlates of semantic similarity [J]. Language and Cognitive Processes, 1991, 16(1): 1-28.

[16]

RESNIK P. Using information content to evaluate semantic similarity in a taxonomy [C]// Proceedings of the 14th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers, 1995: 448-453.

收稿日期:2011-06-20;修回日期:2011-08-21。

基金项目:

国家自然科学基金资助项目(61103114);重庆市高等教育教学改革研究重点项目(112023);“211工程”三期建设项目(S-10218);中央高校基本科研业务基金资助项目(CDJXS11181164)。