首页 > 范文大全 > 正文

基于关键字和语句融合的自动阅卷方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于关键字和语句融合的自动阅卷方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:主观题阅卷一直以来都是考试系统研究与实现的难点,其中简答题、计算题和证明题等的解决是考试系统的核心部分,本文结合人工智能、专家系统等知识对文本内容的主观题评阅技术进行研究,设计了一种基于关键字语句融合自动阅卷方法,提高了阅卷的准确率。

关键词:语句融合;主观题;自动阅卷

中图分类号:TP29 文献标识码:A文章编号:1007-9599 (2011) 06-0000-01

Automatic Scoring Methods Research Based on Keywords and Phrases Integration

Ding Kangjian

(Harbin Deqiang College of Commerce,Harbin150025,China)

Abstract:Subjective scoring has been the examination system study and implementation difficulties,including short answer questions,such as calculation problems and proofs to solve is the core part of the examination system,this combination of artificial intelligence,expert systems,knowledge of text content Subjective reviewers technology research,design integration based on keywords and phrases automatic scoring methods to improve the accuracy of scoring.

Keywords:Statement integration;Subjective question;Automatic

scoring

教学质量问题是我国教育事业的发展中要面对的一个重要课题,目前评价教学质量的好坏常用的主要手段就是考试。众多的考试系统中组卷技术的研究已经非常成熟,而阅卷技术中客观题的阅卷技术也已经应用的很好。对于主观题阅卷一直是一项重要的研究课题。因为,主观题阅卷技术涉及到人工智能、自然语言和模糊数学中的相关理论知识,目前人工智能技术中自然语言理解这一领域尚无突破性进展因而要实现计算机完全的理解评阅确实有难度。在本文中将提出一种基于关键字和语句融合的算法,评分的准确度与其他算法相比有了一定的提高。

一、算法的描述

(一)设计思想。首先对学生的一段答案文本进行划分句子,根据每一句话在整个答案中所占的比重给定一个权值,然后把每一句话进行分割切词得到关键字,计算出各个关键字的相似度。具体描述就是将由段落组成的答案分成各个子句,接着对答案的各个子句进行分词处理,将各个子句变成词的序列,再对各个子句进行语义块的识别和句类分析,识别出语句中的各语义块,再按照相应的规则计算学生答案和参考答案各对应语义块之间的相似程度,并辅助以一定的评分规则计算出整个子句的相似程度。最后根据参考答案各语句关键词的权值加权求和得出学生的得分。

(二)分句和分词处理。分句处理是把答案以某些特定标点符号为分隔标志分成若干子句。在此把句号、感叹号、问号等作为子句分隔符号,为了方便分词这里还把逗号、分号等也作为子句分隔符。分词处理是将连续的字序列按照一定的规范重新组合成词序列的过程。一般参考答案和学生答案都是一段或几段文本组成的,每段包括若干个句子。为方便关键词的抽取,首先需要对参考答案和学生答案分别进行分句和分词处理。

(三)引入关键字权重语义相似度算法。为了使计算结果更加精确,引用模糊数学中的贴近度的定义实现其算法,并对单项贴近度的算法进行了改进,由原来只是从左到右比对文本的贴近度计算,改进为分别从左到右、从右到左和从中间任意位置到两边的顺序比对得出单向贴近度,之后对三个贴近度取最优的。具体步骤如下:

第一步,提取考生的答题信息。第二步,用提取的句子按数据库中的词库进行遍历语义块中各词,得到某一个词就用一些特殊的符号作为分隔词的标识符标记出,并同时将词抽出,保存在抽取结果的数组的各元素中。第三步,计算考生答案与数据库中答案的单向贴近度。

将以上两步提取的考生的答题信息数组中的每一个元素分别保存为字符串数组 的各元素 中,下面先对第一个元素的贴近度进行计算,设 中包含 个字符, 表示 贴近于 的单向贴近度,集合 为标准答案中包含 个关键语句,其中每个关键语句中包含 个字符,对各个关键语句根据重要性进行加权依此为 ;将标准答案看成一个整体在对考生答案提取的数组中的每一句或每一词中寻找切入点(切入点的标记是:以开始相同的两个字符)进行整体比对;1.按照从左到右的顺序,集合 中的每个元素在集合 中对应关键字出现的有效次数分别记为 , ;2.按照从右到左的顺序,集合 中的每个元素在集合 中对应关键字出现的有效次数分别记为 ,则 ;3.按照从中间到两边的顺序(切入点的标记:若标准答案字符数为偶数以中间的两个字符相同为准;若为奇数个,则以中间的三个字符相同为准),集合 中的每个元素在集合 中对应关键字出现的有效次数分别记为 ,则 ;综上,对抽取的考生答案的数组中的第一个句子或词的贴近度计算公式为:

1-1

最后学生答案与标准答案的总贴近度为:

1-2

第四步,确定各关键词的权重。对标准答案中语句连贯性和各关键字或词设定权重集合 ;由我校经验丰富的老教授带领任教本课多年的教师担任命题组,所有教师根据自己的理解和判断,对每一个主观题的关键语句的权重予以评分,不妨称之为原始权重。设 表示第 个老师对于第 个关键字或词的原始权重,要求所有的原始权重之和必须小于或等于 ,即对于任意 ,有:

1-3

那么,以所有 个老师对该题标准答案设置的权值平均值为该题各个关键字的最后权值,计算公式如下:

1-4

那么,所有权值之和为:

1-5

第五步,计算最后得分。设 为该题的标准分值,该题的评分公式即:

1-6

说明,在此必须给贴近度设定一个阈值,作为评定的标准,当然这个阈值可根据实际情况进行调整,例如,如果贴近度小于整个标准答案与学生答案的贴近度 ,在此按贴近度为零计算。

二、结束语

通过对主观题的阅卷技术的研究,设计了一种基于关键字和语句融合的自动阅卷方法,很好的提高了评卷的精确度,降低了时间复杂度。由于自然语言的复杂性,主观题的评分还存在很大的局限性,但是简短答案主观题评阅的使用还是有很大意义。

参考文献:

[1]李瑞芳,孙健,李娜.基于计算机自动分词的研究[J].沈阳化工学院学报,2008,22(3):255-258

[2]南铉国.基于语句相似度计算的主观题自动评分技术研究[D].延吉:延边大学,2007:13-14

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文