首页 > 文章中心 > 匹配算法论文

匹配算法论文

开篇:润墨网以专业的文秘视角,为您筛选了八篇匹配算法论文范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

匹配算法论文范文第1篇

关键词:毕业论文;KM算法;选题系统

中图分类号:TP311.52

1 引言

在现有的毕业论文选题系统中,一个学生只能选择一个题目作为自己最终的题目,同样,一个题目只能分配给一个学生。如果最后题目由学生自己确定,那就会出现先选的学生具有更大的选择余地,后选的学生由于不能再选已经选定的题目,所以其可选择的题目会越来越少,这对很多学生来说很不公平。如果学生选择自己的志愿,最终题目由老师来定,这不但加大了老师的工作量,而且还是不能保证每位同学的公平性。如何采用计算机智能辅助选题,设计最优匹配算法实现学生与题目的整体最优匹配,会大大提高选题的效率。

汤颖曾在《毕业设计立项与选题管理及其支持系统》中提出,采用模糊匹配技术进行学生-题目的自动匹配;潘志方在《一种改进的Ford-Fulkenson算法在选题系统中的应用研究》中将题目与学生的匹配抽象为二分图的匹配,并采用改进的Ford-Fulkenson算法实现题目与学生的自动匹配。以上两种方法只考虑了学生与题目之间的最大匹配值,并没有考虑学生的整体满意度最优的情况。

本文将通过采用最优匹配算法(KM)确定一种匹配方案,使得学生的整体满意度最高。具体方法概括如下:学生预选多个题目,并根据自己对题目的满意度由高到底排序,这样,满意度成为二分图的一分值,如图1所示:

2 系统功能模块设计

根据前期的可行性分析,本系统主要进行以下模块的设计:系统管理员模块、专业负责人管理模块、指导教师管理模块和学生选题模块。

系统管理员模块主要负责对系统参数的设置及用户的管理。主要实现以下功能:

(1)系统设置:对系统标题、毕业生、选题参数设置;

(2)学院及专业设置:完成学院、专业的添加、删除、修改操作;

(3)数据字典的维护:教师信息、选题难度、选题方向灯信息的维护;

(4)教师和学生的管理:完成教师、学生信息的添加、删除和修改操作;

(5)文件文化建设管理:日志文件查看、上传文件的管理。

专业负责人管理模块与系统管理员权限相似,但操作的数据只能针对于指定专业,无法浏览及操作整个学院的课题及学生信息。最重要的功能是实现题目的审核。

导师管理模块主要用于选题以及选择自己选题学生的审核确认。

(1)个人中心管理:如信息修改及密码重置;

(2)选题管理:选题的增加、修改、删除以及选题类型的设置;

(3)学生选题查询及审核。

学生模块主要实现学生选题的选择及确认。

(1)学生个人信息的修改;

(2)学生选题及确认信息查询;

(3)学生留言及咨询。

3 KM算法在系统中的实现

KM算法由Kuhn和Munkras分别提出来,这是一种问题。经典的算法。该算法由通过每个顶点一个顶标(A[i][j])来求最大权匹配的问题转化为不断寻找增广道路以使二分图的匹配数达到最大的完备匹配。KM算法的关键在于不断寻找二分图中的可增广道路。如果找到一条可增广道路,就可以额将属于和不属于相等子图的边取相反,从而相等子图里就是增加一条边,一直到所有的顶点都进入相等子图为止。

KM算法可以很好地解决选题系统中,题目与学生最优匹配的问题。下面以国际商学院09级本科学生选题为例。

在匹配过程中,设学生的集合为X={X1,X2,X3……Xn},选题的集合设置为Y={Y1,Y2,Y3……Yn},学生对自己选题的满意度为二维矩阵Z[m][n],其他题目规定权值为0。系统规定学生最多可预选3个题目,并按照满意度分别设置0.9,0.7,0.5。以下表1是对国际经济与贸易专业使用不同算法得出的学生满意程度。

下面对以上数据进行说明。如采用手工分配的方式,使得681名学生中414名同学分的了题目,满意度为60.82%;如果采用最大匹配算法进行分配,可以使分配数达到最大,有517名学生分得题目,满意度上升为79.99%;最有用最有匹配算法进行分配,使总体满意度达到78.24%,533人。需要说明的一点是,KM算法只是找到了整体最优匹配而不是最大数匹配,如果整体最优情况下匹配数和最大匹配数相差得太大的话,那么整体最优方案显得不太可取。所以,最好的情况就是同时考虑最优匹配和最大匹配来同时控制两者的大小。

4 结语

本系统实现了毕业论文选系统工作的各个管理功能,通过实现教师与学生的双向选择,使用KM算法,提高选题的质量和效率,为学院充分利用网络完成毕业论文选题工作提供了便利的平台。

参考文献:

[1]汤颖.毕业设计立项与选题管理及支持系统[J].合肥工业大学学报,2006,29(5).

[2]潘志方.一种改进的ford算法在选题系统中应用研究[J].计算机应用与软件,2007,24(9).

匹配算法论文范文第2篇

关键词:自动评分;分词;矢量空间模型;文本特征匹配

中图分类号:TP301文献标识码:A文章编号:1009-3044(2011)25-6122-02

Research of the Text Subjective Question's Auto Remarking Algorithm Based on Word Segmentation Algorithm &VSM

LI Xue-jun

(Southwest University of Science and Technology, Mianyang 621010, China)

Abstract: The paper makes use of the studied results(such as Vector Space Model (VSM), Word Segmentation algorithm and so on) of the native language understanding, and applys them in processing the text subjective question's answer (including the standard answer and the student's answer), and then it used the text_charactered vector matching algorithm to auto remark those student's examining paper by the computer system. According to the experiment, the algorithm has accuracy of remarking and some valuable domains of application.

Key words: Auto-remarking; Word Segmentation algorithm; Vector Space Model (VSM); Text character matched

随着计算机技术和互联网技术迅猛发展,传统教育模式发生了变化,越来越多的课程提出了在线考试的需求。计算机可以很好地完成客观题(如选择题、判断题)的判分工作,其判分策略、关键技术及其应用实例详见文献[1]至文献[3]。亦即把考生作答的结果和题目标准答案进行精确匹配从而得到考生的得分。文献[4]提出了一种近似串匹配算法来对文本录入题的自动评分算法,其本质还是进行文本的比较,与客观题的判分原理基本是相同的。

计算机自动评分是指利用计算机程序来模拟人工评分的标准和内部过程。对客观题的评分是通过把试题的标准答案与考生的答案做一个精确比较,并据此作为是否给学生相应的题目分值;对于主观题,目前一般是让考生把其作答的结果形成一个文件(答案文件),再通过网络把考生的答案文件上传到考试服务器中的专用目录中,科任教师在考试结束后对考生的答案文件进行人工评判来进行给分;最后把考生客观题的计算机自动评分结果和主观题的人工评分结果累加起来作为考生的最终成绩。对于客观题可以完全不要人工干预,而主观题就必须在人工干预下才能完成。

因此本文就此提出将人工智能的自然语言理解技术(主要是分词算法)、文本的空间向量模型表示和知识的框架表示内容应用到网络考试系统中的主观题的自动评分过程中。

1 文本主观题自动评分原理

对于在线考试系统来说,其自动评分是在特定范围内的,不需要让其理解所有的自然语言,只需要理解标准答案即可。因此,应该使用某种算法使标准答案转化成机器能够理解的形式,将考生答案也按照一定的规则转化成计算机可以理解的形式,然后再将其和标准答案进行匹配并评分。其关键是如何将评分规则转化为可以被机器理解的知识库。主观题的自动评分原理如图1所示。

2 自动分词算法简介

2.1 最大匹配分词算法

匹配分词法是按照一定的策略将待切分的汉字串与一个“充分大的”机器词典(如金山词霸等)中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。最大匹配分词法即先确定一个最大的词的长度,然后从左(正向)或从右(逆向)取该长度的词串,将词串与词典中的词条匹配,如果没有该词则去掉一个字符继续匹配,以此类推,直到达到匹配或剩下一个单字为止。

2.2 最大概率分词算法

最大概率分词算法的基本思想是:假设一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。例如,有一个句子S=“有意见分歧”,第一种分词路径W1=“有/意见/分歧/”,第二种分词路径W2=“有意/见/分歧/”,如图2所示。到底应该选择哪一种为最后的分词结果呢?

根据概率分词算法的基本思想,需要计算每一种方法出现的选取概率的作为最后结果,即计算Max(P(W1|S), P(W2|S))。概率计算方法如图3所示。

每一个词汇出现的概率P(wi) 可以在带词频的词典中查出。通过查词典可以得到每个词的概率为:P(有)=0.0180,P(有意)=0.0005,P(意见)=,0.0010,P(见) =0.0002,P(分歧)=0.0001。

对于第一种分词方法:P(w1) = P(有) * P(意见) * P(分歧) = 1.8×10-9;

对于第二种分词方法:P(w2) = P(有意) * P(见) * P(分歧) = 1×10-11;

由上所示,P(w1) > P(w2),所以取第一种方法作为分词结果。

3 文本矢量特征匹配算法

主观试题的答案以文本方式存储,经过分词后的文本如何表示才能更加容易地被计算机处理关系到文本处理的准确性,因此文本表示方法是自动评分算法的一个关键问题。近年来,在Web文本信息特征获取算法的研究中,矢量空间模型(Vector Space Model,VSM )[5-6]是应用较多且效果较好的方法之一,本算法借鉴了该模型的思想。在矢量空间模型中,文本被看作由一组正交词条所生成的矢量空间。根据这个思想,同时考虑到考试评分中经常将试题答案分为几个要点,因此提出主观题成绩评判模型为:

首先,答案文本是由一些要点组成,如果把答案文本(Answer text 用A来表示)看成一个由n个要点(Pi)组成的集合,则可以这样表示答案:A={P1,P2,…,Pi,…,Pn};设每个要点Pi的分值为Mi,则该答案的总分M为:;按照VSM思想,将标准答案每一个要点Pi被看成是由Ki个特征词(wj)组成的向量P:;设每个特征词的权重是wj(由经验丰富的任课教师人工设置),则其归一化权重为:;设考生答案的每一个要点Pi'也被看成是由Ki'个特征词(wj')组成的向量P':;通过计算考生答案和标准答案的向量间的距离并据此计算考生可得到到该要点的分值,即:(如果向量间的距离为0,则说明考生答案和标准答案完全匹配,考生可以拿到该要点的所有分值);考生所得总分M'为:。

4 算法测试及结论

本论文采用oracle作为后台数据库管理系统(因为系统所用的词典数据库都比较大),基于B/S模式设计了基于文本的主观题自动评分测试软件。通过对不同名词解释题目(答案长度及复杂度不同)的评测,再将本算法评得的分数与人工评分相比,分数的容差在(-0.5~+0.5),可以测得其评分的准确度在86.93%。通过实际的数据测试可以看出,答案越复杂,要点越多,评分的准确性越差;相反,要点越少,答案越简单,评分的准确性越好。而且人工设置关键词和权重也有利有弊,人工设置固然增强了系统的准确程度,但是其前提是设置人必须是有经验的老师,如果是没有经验的老师设置,则给算法增加了人为的误差。该算法具有一定的实用性,但还有待进一步的完善。

参考文献:

[1] 华蕊. 自动组卷及评分系统的设计[J]. 中国电化教育.2002,(2):84-85.

[2] 朱映辉, 江玉珍.计算机自动评卷策略分析与研究[J]. 电脑知识与技术,2005,(35):30-32.

[3] 李丁. 计算机考试系统中自动评分策略的研究与实现[J]. 广东广播电视大学学报,2002,11(4):30-32.

[4] 李少芳, 车艳.近似串匹配算法在自动评分系统中的应用[J]. 东莞理工学院学报,2008,15(3):25-28.

匹配算法论文范文第3篇

关键词: 影像匹配; 同名点; 相关系数法; 最小二乘影像匹配

1 最小二乘法影像匹配的基础理论与算法

影像匹配实际上就是两幅(或者多幅)影像之间识别同名点,它是计算机视觉及数字摄影测量的核心问题。我们知道要匹配的点的同名像点肯定在其同名核线上。在进行最小二乘影像匹配之前,需要先进行粗匹配。然后在粗匹配的基础上用最小二乘法进行精匹配。我们这次讨论的是利用一维搜索的方法来进行粗匹配。这就是利用同名核线来进行同名像点的粗匹配。这相对于二维匹配来说速度更快。

1.1基于数字影像几何纠正法提取核线,利用共面条件来确定同名核线

我们知道,核线在航空摄影测量上是相互不平行的,它们相交于一点---核点。但是如果将影像上的核线投影(或者称为纠正)到一对“相对水平”-------平行于摄影基线的影像对上后,则核线相互平行。正是由于“水平”的像片具有这么一特性,我们就有可能在“水平”像片上建立规则的格网,它的行就是核线,核线上像元素(坐标为xt、yt)的灰度可由它对应的实际像片的像元素的坐标为x,y的灰度求的 ,即g(xt,yt)=g(x,y)。

根据前边的共线方程,同一摄站点摄取的水平像片与倾斜像片,其水平和倾斜像片的坐标之间的关系为:

(1-1-1)

(1-1-2)

上边的式子中a1,a2…,c3为左片的九个方向余弦,是该像片的外方位角素的函数,f为像片主距。显然在水平像片上,当yt为常数的时候,则为核线,将yt=c代入(1-1-1)和(1-1-2)式经整理,得:

(1-1-3)

其中:

e3=d3

若在“水平”像片上以等间隔获取一系列xt值 ,(k+1)*,(k+2)*…,可以得到一系列的像片坐标(x1,y1),(x2,y2),(x3,y3),…,这些点就位于倾斜像片p的核线上。

同样以yt=c 代入右边的共线方程:

(1-1-4)

(1-1-5)

其中, , ,… 右方像片的对于单独像对像空间辅助坐标的角方位元素的函数,由此可得右片上的同名核线。

1.2核线的重排列(重新采样)

已知原始的影像的灰度序列,为求待定的平行于基线的“水平”影像。这就需要进行核线的灰度重采样。按照式(1-1-1)和(1-1-2)将“水平”像片上的坐标u,v反算到原始影像上的x,y。但是由于所求得的像点不一定恰好都落在原始影像采样的像元中心,这就必须进行灰度的内插-----重采样。通常所用到的是双线形插值法,取临近的四个像元点的灰度的数值进行待求点的灰度的计算。

图1-2-1双线形重采样

本公式中y1代P点到g1,g4连线的距离,x1代表P点到g3,g2连线的距离的大小

1.3数字影像匹配的基本算法

本论文讲述的相关系数法主要是对于一维影像相关的。

如图1-3-1所示是一维影像相关的目标区和搜索区(这里取m=n)。设g代表目标区内的点组的灰度值,g’代表搜索区内相应点组的灰度值,则每个点组共取得了n个点的灰度值的均值为

图1-3-1一维相关目标和搜索区域

,(i=0,1,2…n) (1-3-1)

两个点组的方差 , 分别为:

, (1-3-2)

两个点组的协方差 为:

(1-3-3)

则两个点组的相关系数 为:

(0,1,… -n) (1-3-4)

在搜索区内沿核线寻找同名像点,每次移动一个像素,按照(1-3-4)来依次相关系数 ,取其中的最大的数值,其对应的相关窗口的中心像素就被认为是目标点的同名像点。

1.4用相关系数的抛物线拟合来提高相关精度

为了把同名点求的更为准确一些,可以把相关系数的最大点i点左右若干点(一般取左右个两个点)联系起来,从而将其函数的最大值k处的作为寻求的同名点的位置,结果会更好一些。

图1-4-1抛物线拟合

如图1-4-1所示设有相邻像元素系处的5个相关系数,用一个二次抛物线方程式来拟合,取用的抛物线方程,代表相应S位置处灰度的数值。

(1-4-1)

式中的参数A,B,C用间接平差方法求的。此时抛物线顶点k处的位置为:

(1-4-2)

由相关系数抛物线拟合可以使相关精度提高到0.15-0.2个子像素(当信噪比较高的时候),但是相关精度和信噪比近似成反比例关系。当信噪比比较小的时候,采用相关系数抛物线拟合也不能提高相关精度。

2仅考虑相对位移的一维最小二乘影像匹配

2.1一维最小二乘影像匹配原理

在本次仅仅考虑相对位移的一维最小二乘影像相关。在一维影像相关中是在倾斜影像相对应的水平影像坐标系中沿x轴方向寻求同名点,若在最小二乘算法中把搜索区像点移动的位移量作为一个几何参数引入,就可以直接解算像点的位移。

设有两个一维灰度函数 , ,除了随机噪声 , 外, 相对于 存在位移量 。如图4-3-1所示,则

(2-1-1)

则(2-1-2)

图 2-1-1 仅考虑相对位移的一维最小二乘影像相关

为了解求相对位移量,需要对(2-1-2)式子进行线性化:

(2-1-3)

对离散的数字影像,灰度函数的导数 可以由差分 代替,即

(2-1-4)

其中 采样间隔。令 ,则误差方程式可以写为;

(2-1-5)

为了解求 ,取一个窗口,对窗口内的每个像元素都可以列出一个误差方程式,按照的原则,则可以求得影像的相对位移的量 :

(2-1-6)

因为解算都是线性化的结果得到的,因此,解算需要迭代进行。解得 后,对 进行重新采样,各迭代计算时,系数 以及常数项 均采用重新采样后的灰度值进行计算。

2.2计算最佳的匹配点位

我们知道,影像匹配的目的是为了寻求获得同名点。通常以待定的目标点建立一个目标窗口,窗口的中心点就是目标点。但是,在高精度影像相关中,必须考虑目标窗口的中心点是否是最佳的匹配点。根据最小二乘法影像匹配的精度理论可以知道:影像匹配中的精度取决于影像灰度的梯度 , 。因此,可以用梯度的平方为权,在左方影像窗口中内对坐标做加权平均:

(2-2-1)

以它作为目标点坐标,它的同名点坐标可以由最小二乘法影像匹配所求得的几何变换参数求得;

(2-2-2)

随着以最小二乘法为基础的高精度数字影像匹配算法的发展,为了近一步提高起可靠性与精度,摄影测量工作者进而有提出了各种带有约束条件的最小二乘影像匹配的算法。例如,附带有共线条件的最小二乘相关以及与VLL法相结合的最小二乘影像匹配方法都得到了广泛的应用和研究。

3 最小二乘影像匹配的精度分析

利用常规的匹配算法(如相关系数法),至多能获得一个影像匹配的质量指标,如相关系数越大,则影像匹配的质量越好,但是无法获得其精度指标。利用最小二乘法匹配,则可以根据 以及法方程式系数矩阵的逆矩阵,同时求得其精度指标。其中几何变形参数的移位量的精度,就是我们所关心的利用最小二乘匹配算法进行“立体量测”的精度。同时,研究最小二乘影像匹配的精度对于“特征提取”以及它与影像匹配的质量等问题,有着重要的意义。

匹配算法论文范文第4篇

关键词:全景图,图像拼接,特征匹配,图像平滑

 

1 绪论

图像拼接技术有悠久的研究历史。早期用于航空遥感照片合成,在20世纪90年代Heung——Yeung Shum研究了同心圆拼图(柱面全景图), 20世纪90年代中期,微软研究院的Szeliski教授提出基于运动的全景图像拼接模型,将8参数减低为4参数,2003年M.Brown发表了全自动的图像拼接算法的文章,使用捆绑调整技术,同时,鱼眼镜头拍摄图像生成球面全景图的绘制技术也得到广泛研究。

2 全景图像拼接技术的概述

2.1 全景图的模式分类

全景图根据图像投影方式的不同,存在几种全景图像:一种是球面全景图像,一种是多面体全景图像,还有一种是最常用的柱面全景图像。柱面全景处理起来比球面全景与多面体全景简单得多,因而应用面比较广。

2.2 全景图的生成流程

全景图的声称流程如下:图像的采集,图像的预处理,图像的变换,图像匹配,图像的平滑处理。

3 基于特征匹配的柱面全景图拼接技术的研究

3.1 原始图像的采集和几何校正

3.1.1 拍摄方法和原则

照相机拍摄时一般有三种情况:

1.旋转照相机拍摄

在这种情况下,放置照相机的三脚架在拍摄过程中一直在同一位置。照相机绕垂直轴旋转,每旋转一定的角度,拍摄一张照片。拍摄得到一系列照片中相邻两张必须有部分重叠。建议相邻图像之间重叠比例达到50%。重叠比例越大,拼接就越容易。

2.平移照相机拍摄

平移照相机指的是照相机在一个平行于成像平面的方向上平移。这种情况的缺点:拍摄的相片在一个平面上,拍摄的三维感觉不如旋转拍摄的。科技论文。

3.手持照相机拍摄

这种方法比较容易做到,手持照相机原地旋转拍摄。但是,拼接手持照相机拍摄的照片是很困难的,因为在拍摄过程中,照相机的运动非常复杂。可以增加重叠比例,使照相机旋转角度、平移减小,因而减小相邻图像之间的不连续程度。

用照相机拍摄全景图像,要取得较好的效果,必须注意以下几个方面的原则:

3.2 图像的变换

将一幅图像与另一幅图像匹配,常需要对一幅图像进行一系列的变换,这些变换可分为刚体变换、仿射变换、投影变换和非线性变换。

3.3 图像的匹配

3.3.1图像拼接算法的原理

一般情况下,经过柱面投影变换得到的具有重叠区域的柱面全景图中相邻的两幅待拼接图像间的重叠[2]范围大约在30%-50%之间。为了减少在特征区域提取时候的盲目性,我们可以先对灰度图像进行图像轮廓的提取,尽量的让选择的特征区域包含独特的信息,容易识别。

在图像匹配过程中,希望匹配点要准确,即关峰尖锐,定位精度高,因此在实验过程中用边缘检测的方法提取图像的边缘从而使图像的轮廓更为清晰,这样有利于提高匹配的精度和降低伪匹配的可能性。

3.3.2 基于特征区域的提取和匹配算法的实现

本文采用Moravec[3]算子进行特征区域的提取,窗口的大小可以采用55到2121。窗口越大,抗噪声能力越强,同时运算量也越大。

特征区域的匹配过程步骤如下:

1.将匹配图像重叠部分的像素灰度值和位置信息读入数据矩阵B,矩阵B读入的是匹配图像重叠部分的数据。

2.设置一个或者多个二维循环,通过对循环条件的设置或者分段设置循环,使搜索路径可以沿着预处理之后提取的轮廓边沿进行,将整个图像的重叠区域全部搜索一遍。科技论文。

3.沿着搜索的路径提取矩阵B的55,并且对矩阵内部的元素进行运算,分别计算该矩阵和单位矩阵的元素的均方差和灰度差的绝对值之和,分别把它们赋给两个变量。

4.将记录的当时搜索区域和单位矩阵的均方差和灰度差的绝对值之和跟之前的记录值作比较(记录值的初值的均方差为0,灰度值的绝对值之和为10),记录均方差的最大值和灰度值的绝对值之和的最小值,并且分别记录它们的坐标位置。科技论文。

5.搜索矩阵下移,再次重复步骤2和步骤3。

6.搜索结束,就得到了在矩阵B中令均方差最小且灰度值的绝对值之和最大的区域,记录该区域的位置和中心点的坐标位置。

在本课题的实现过程中,待拼接的图像已经经过了预处理和轮廓提取,所以在拼接的过程中,只需要将算子的中心沿着重叠部分图像的轮廓进行就可以了。

3.4图像的平滑处理

在拍摄柱面全景图时,周围环境和相机本身引起的最大问题就是相邻图像之间的光照变化较大,会出现带状痕,为了消除这种拼接区域带状痕影响,提出了一种直方图处理方法:

1.对于24位色图,首先将RGB图像转换成HIS类型图像,针对其I分量进行处理,等同于对灰度图像的灰度值进行处理。

2.将两幅图像的1/3公共部分作为重叠区域,注意要保证两个重叠区域像素数目一致。

3.分别计算左、右两边重叠区域的I分量或灰度图像灰度值的和sum1与sum2。

4.Differ=sum1/sum2,将图像2的每一个像素的I分量或者灰度图像2的每一个像素的值与参数Differ相乘加权。这样做的目的是将两幅图像的亮度均值统一,使得重叠区域在拼接时能够平滑过渡。

4 总结与展望

随着虚拟现实技术的不断发展,虚拟现实技术开始走向大众化,并应用于网上购物、网上旅游、网上教育和在线游戏等领域,虚拟现实系统将会成为未来世界一个不可缺少的重要组成部分。

【参考文献】

[1]王玉珍.基于特征区域的图像拼接技术.兰州大学硕士学位论文,2001:

3-10

[2]兰培真,马越,邱志雄,金一垂.不同视点重叠图像自动拼接算法.中国航海,2001,(2):41-45

[3]G.Stein.Accurate Internal Camera CalibrationUsing Rotation with Analysis of Sources of Error.Proceedings of the 5th InternationalConferenceon Computer Vision (ICCV'95),Cambridge MA,1995,(1):230-236

匹配算法论文范文第5篇

关键词:PCB图像;形态学;轮廓特征;角点;Hausdorff距离

1.拼接方法的选择及拼接区域的确定

1.1 .PCB图像拼接问题的具体分析

现有的图像拼接技术大致分为两类:基于区域的方法和基于特征的方法。在基于区域的方法中,图像的像素点阵直接参与匹配运算,利用图像本身具有的灰度信息来度量图像的相似程度。基于特征的方法则是通过提取并匹配两图像共有的特征结构来完成图像拼接。通常使用的特征结构包括边界、轮廓、区域、线交叉点等。图像拼接采用何种技术,与图像的特性以及图像之间的关系紧密相关。

图像拼接要考虑的问题有[1]:第一,图像之间的变换性质;即待拼接的两图像之间是何种变换。第二,特征选择;即选取什么样的特征作为两图像匹配的目标。第三,特征匹配;即如何建立特征之间的对应关系。

首先我们来看一下PCB图像拼接中图像与图像之间的变换性质。首先,两图像之间存在平移变换,这是因为拍摄相邻两图像时摄像镜头与PCB之间有平移量。其次是存在一定的旋转变换,因为在工作台微移时或扫描时照片放置的偏斜,导致两图像之间有一定的旋转角度;再有就是微小的尺度差异。假设在拼接相邻两图像时尺度差异可以忽略不计,图像拼接变换就是图像之间的平移变换和旋转变换,也就是刚性变换。

关于特征的选择,也跟图像的内容以及图像之间的变换有关。PCB图像拼接存在两个特点。首先是由摄像机采集到的PCB原始图像只包含目标(PCB线条、焊盘)和背景图像信息以及极少量的噪声,目标灰度与背景灰度之间差别较大,目标与目标、背景与背景之间灰度相差不大,使得PCB图像的轮廓特征容易提取。其次为了满足PCB视觉检测中高速度和精度的要求,相邻图像间重叠区域应该尽可能狭窄,所选择的特征最好包含尽可能多的信息。图像的特征点比图像的像素点要少很多,从而大大减少了匹配过程的计算量。特征点的匹配度量值对位置变化比较敏感,可以大大提高匹配的精度。特征点的提取过程可以减少噪声的影响,对灰度变化、图像形变以及遮挡等都有较好的适应能力。基于以上两点我们选择轮廓特征作为匹配特征。

第三,确定特征之间的对应关系。选择轮廓作为特征之后,图像拼接问题化解为轮廓匹配问题。在其中一幅图像的重叠区域选择一块作为特征提取区域,提取这个区域内的轮廓特征,在另一幅图像的重叠区域内搜索与此特征区域匹配的区域,记录最佳匹配位置的坐标。我们需要一个定位准确的匹配算法,以满足图像之间的完好拼合。

1.2. 模板的选取及搜索区域的确定

2.两幅图像的拼接算法

在基于前面分析及假设的基础上,本文提出了一种基于轮廓特征点的PCB图像拼接算法。

2.1.图像分割

PCB图像的灰度分布特征。

2.1.1.具有明显的背景峰值和目标峰值;

2.1.2. 两个峰值距离较远,而且其间灰度值基本相等,没有明显的波谷;

2.1.3.背景像素点和目标像素点的灰度变化具有连续性,目标边界的灰度是渐变的,不是突变的。

根据PCB图像的特点,PCB图像在进行图像分割时多采用阈值分割的方法,本文参照文献[2]使用了一种自适应阈值的图像分割方法。

3. 结论

在利用Hausdorff距离对特征点集进行配准时,特征区域 在搜索区域 中每一个可能位置上移动并求取 与对应图像中被匹配区域上的点集的部分Hausdorff距离,这种搜索方法计算量大,因此需要采用适当的快速搜索法以加快匹配速度。

此方法利用的是轮廓中的角点特征,因此只适用于能提取出角点的PCB图像,如果PCB图像只有焊盘或者线条都为直线,则此方法不适用。

参考文献:

[1] 衣晓飞.集成电路芯片图像处理技术的研究:[博士学位论文].国防科技大学,2001,10

匹配算法论文范文第6篇

[关键词]ARM7无线传输指纹辨识

中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)1110048-01

一、发展背景

目前国内外的指纹识别系统设备大多停留在指纹采集器、和一台计算机的组合水平上,这样的系统有很多缺陷。针对于目前国内存在的一些不足,本项目拟以ARM芯片为核心的蓝牙通讯芯片硬件,以指纹识别系统为核心的软件,实现一个基于ARM的无线便携式指纹辨识系统平台,能实现无线通信传输。以此改进现有的指纹识别系统,并期望在应用方面得到推广。

二、研究意义

为了解决目前大多指纹识别系统的携带不方便,身份识别时间较长,工作效率低,且目前的系统都不具有通信交换功能和信息传递的及时性的缺点,有针对性的去设计和开发一种无线通信功能的便携式指纹识别系统。

三、创新点

与常见的产品模型相比,有如下优点:1.便携式:本项目拟设计以ARM9为平台的便携式指纹识别系统,该系统可以方便在室外使用,通过比较存储器内的指纹特征信息与现场采集的指纹信息可以完成身份确认;2. 速度快:通过相关人员的指纹能够马上确认身份,无需与计算机相连;3. 实现了无线通讯的模式:通过单片无线收发芯片可以完成与机构中心的信息交流。

四、硬件设计

本系统硬件设计主要包括指纹采集、无线通讯、和存储模块三个部分。先利用指纹采集模块采集指纹图像,再经ARM9模块进行算法处理,把相关的信息存储起来,并与存储模块的中的指纹比对确认身份,并通过无线通讯模块把相关信息发送至信息中心。1.指纹采集指纹采集传感器采用OV7620,并以I2C总线及DMA的数据传输方式实现与CPU的信息交互。当nXDREQ1输出由高电平变得低电平时,传感器便有数据输出,并且数据能够维持至下一个同样的过程的到来。这正好符合44B0的外部DMA请求的单步模式的要求。于是自然就可以采用DMA的方式来读取数据。最终的数据读取是通过片选锁存器来实现的。由于DMA的方式不干预CPU,因此也大大提高了读取的速度。2.电源管理。电源管理部分采用了1150mAh的LI电,通过DC-DC升压至5V,再通过LDO给系统所需要的3.3V和2.5V电压。具体的实现过程为:电池供电时,开关S9按下,TEST1点由高变低,Q0导通,NAND网络为高,系统开始供电,此时程序运转并给与SHDN引脚高电平信号,促使Q6导通,此时即使按键抬起TEST1点仍为低电平,维持Q0的导通。当插上U后,按键的按下使得Q4导通,Q0此时截至,系统由电池供电切换为U供电,其它道理相同。关机时按键按。系统可以实现图像的连续采集以及温度、湿度、照明亮度等的控制。其中图像采集是系统的核心,其工作流程如下:(1)默认情况下,系统工作在休眠状态。(2)工作人员通过PC管理软件发送命令开始采集图像,软件通过USB接口把命令发送给蓝牙适配器ARM命令。(3)接收到图像采集命令后,ARM控制CPLD开始采集图像数据。(4)CPLD把采集到的一帧图像数据写入一块SRAM中,把ARM的总线切换到该SRAM上,并通知ARM进行压缩;同时CPLD往另一块SRAM中继续采集下一帧图像,便于提高系统的吞吐率。(5)ARM通过蓝牙模块返回响应命令,并返回采集JPEG-LS图像的头信息。(6)PC管理软件发送命令接收下一行压缩图像,ARM压缩该行原始图像,并发送压缩数据;如果出错,可以重新发送。重复本步骤可以获取整帧压缩图像。(7)PC软件对压缩图像解码并显示,并提供其他附加功能,如图像处理、保存等。(8)重复步骤(2)~(7),获取下一帧压缩图像。由上述流程可以看出,JPEG-LS压缩以及无线信道传输决定整个系统的图像传输速率。无线传输采用蓝牙技术,其标称空中速率为1 Mbps,不易提高;因此,系统设计的核心是JPEG-LS的编码效率。3.ARM与蓝牙接口设计.蓝牙是无线数据和语音传输的开放式标准。它将各种通信设备、计算机及其终端设备、各种数字系统,甚至家用电器,采用无线方式连接起来。为了优化系统设计,我们采用性价比高的CSR BC2实现蓝牙无线串口。CSRBC2是一款高度整合的模块级蓝牙芯片,主要包括:基带控制器、2.4~2.5GHz的数字智能无线电和程序数据存储器。通过该模块,系统可以提供无线标准UART接口,支持多种波特率(如9.6 kbps、19.2 kbps、38.4 kbps、57.6kbps、115.2 1kbps、230.4 kbps、460.8 kbps、92l.6 kbps)。当速率为460.8 kbps时,蓝牙芯片能够正常工作;而在921.6kbps时,会有很高的误码率。

五、软件设计

本系统软件设计主要包括固定主程序,管理功能模块,指纹采集算法模块,指纹匹配算法模块,无线通信程序模块,硬件操作模块等。以下为各个模块所包含的函数:1.指纹采集算法模块:打开采集仪函数、关闭采集仪函数、设置参数函数、指纹探测函数;2.指纹匹配算法模块:指纹验证函数、指纹比对函数;3.无线通讯模块:协议层函数、控制层函数、网络层函数、链路层函数、驱动层函数;4.硬件操作模块:读写存储器函数、初始化函数、状态读取函数;5.管理功能模块:指纹的存储、删除、更新函数。

六、结语

本系统以ARM为核心,通过蓝牙传输,实现了数字化的无线指纹辨识功能。本系统具有良好的扩充性,可以使得系统更加微型化。首先,如果采用CSR公司更新的BC3系列芯片,则将融合ARM核以及蓝牙功能,可以更加减小整个系统的体积。最重要的是,如果发展自主产权的指纹识别芯片,那么以现有的SOPC技术,可以将ARM核、CPLD逻辑门以及蓝牙通信功能集成在一起,形成指纹识别的集成解决方案,从而使其产业化成为可能。

基金项目:本文为九江学院科研课题“《基于ARM7的无线便携式指纹辨识系统设计》09kj11的研究”研究成果之一

参考文献:

[1]费浙平,基于ARM的嵌入式系统程序开发要点(二),单片机与嵌入式系统应用,2003,9:80~83.

[2]张小田文,基于ARM7的无线内窥系统设计,单片机及嵌入式系统应用,2008.03.

[3]王波,ARM的三种中断调试方法的探讨.微计算机信息(嵌入式与SOC),2006,22~130~131.

[4]甘泉、杨健、陈永泰,ARM处理器启动代码的分析与设计,2004年全国第五层嵌入式系统学术交流会论文集,2004,151~154.

匹配算法论文范文第7篇

【关键词】大景深雾天图像去雾 分块复原 渐进反卷积 无缝拼接

恶劣天气(雾,霾,水体)中充满着大量的悬浮粒子,由于这些粒子对光会产生散射和吸收作用,从而导致成像的图像发生严重退化。而雾是一种常见的天气现象,由它引起的图像质量下降问题对目标的提取和识别工作造成了严重的困难。因此本文针对雾天图像进行复原算法的研究。

近年来,单幅图像去雾方法取得重大突破,目前应用比较广泛的单幅雾天图像复原方法包括:Tan的单幅图像去雾方法;Fattal的利用独立成分分析的方法;He的基于暗通道先验的方法,该方法利用暗原色统计规律推断透射信息,能够达到非常好的去雾效果,但其不适用于浓雾图像复原。

现有的图像复原方法大多是基于光学成像系统线性空间不变的假定上,而实际的光学成像系统不可能是严格到的线性空间不变系统,特别是在视场较大的情况下,点扩散函数在中心视场和边缘视场有较大的变化,因此对于点扩散函数(PSF)随空间发生变化的图像,仍使用同一个退化函数来处理显然是不够准确的。针对上述问题,本文着重讨论图像分块的复原方法。

1 图像分块原则

对于理想的线性成像系统来说,其成像过程可以用原图像和PSF的卷积来表示,即:

(1)

式中,S为原图像,P为系统的退化函数,I为输出图像,u,v为物面坐标,x,y为像面坐标。

而各视场PSF不同的成像系统,其PSF不仅是像面坐标的函数,也是物面坐标的函数。其成像过程需用下式来表述,即:

(2)

式中各参数含义同(1)式,可以看到(2)式中的P多了两个变量。在实际的光学成像系统中,PSF的变化是连续的,如果认为它在一定区域内是近似不变的,即等晕区,我们可以在等晕区内使用“基于滤波器的线性渐进反卷积”的方法进行图像复原,然后将各分块图像拼接起来,这就是图像分块的基本思路。

2 图像复原算法

2.1 雾天图像分层退化模型

在雾化成像系统中,散射对成像效果的影响作用是很大的,其分为前向散射和后向散射,前向散射主要是图像退化的点扩散函数,后向散射主要是图像加性噪声,故退化图像用数学形式表示为:

g(x,y)=H[f(x,y)]+n(x,y) (3)

由上式可知,要得到清晰图像对PSF有准确的估计,而散射退化图像g(x,y)模糊程度和后向散射噪声本身包含了大量的与散射介质固有光学特性(IOP)有关的信息,结合微积分和物理极值的思想,将目标与接收器之间的散射介质分解成为一系列独立的退化单元,假定每个退化单元厚度极小时后向散射噪声不相关,对分层模型进行无穷层数(即距离无穷远处)积分,然后利用纯后向散射背景(距离无穷远处的天空区域)拟合得到以往需要实际测量的退化函数参数。

2.2 基于滤波器的线性渐进反卷积

通过对上述分层退化模型的分析,可推导出雾天图像的退化函数和噪声信息,实现分层退化的逆过程――渐进反卷积。由于图像退化过程大多时候都可以通过线性退化模型来逼近,上述分层退化模型就是一种线性退化模型,因此通过线性反卷积手段就可以对图像进行复原,本文用经典的维纳滤波器来完成渐进反卷积过程,实现各分块图像去雾。

3 分块图像拼接

本文所用的拼接技术包括4大部分:图像获取,特征点提取与匹配,图像配准,图像融合,各部分均采用了当前图像处理领域的先进算法,以达到较理想的拼接效果。

3.1 图像获取

将待复原的雾天图像进行重叠分块,然后对各分块图像分别复原,得到最终需要完成拼接的各子图像。

3.2 特征点提取与匹配

本文所采用的图像序列特征点的提取算法是2004年Low改进的SIFT算法。

SIFT算法的实现主要基于4点:首先需要对于尺度空间的极值进行检测,其次对于特征点的位置进行精炼,再次对于特征点的信息进行计算,最后生成本地特征点的描述信息。该算法的一个显著优点是能够很好地处理所输入雾天图像的干扰噪声。

通过对两个特征点描述信息之间的欧氏距离的计算能够得到SIFT的匹配算法。

3.3 图像配准

可以说图像拼接的核心技术即为图像配准技术。此技术能够确定需要拼接的图像块之间的重叠部分,找到匹配点,进而得出图像序列之间的变换矩阵,由此得到一幅拼接后的完整图像。此外,为了使最后图像的拼接效果更加理想,本文还应用了LM,RANSAC等算法来提高整幅图像配准的精确度。

3.4 图像融合

要想最终得到一幅完整的拼接图像,就需要将各个复原后的图像块有效地融合在一起,这就要求我们对于各个图像块之间的重叠点进行确定。但是,由于复原后的各个图像块之间容易有亮度上的差异,这种差异会使得拼接后的图像缝合线两端出现较明显的明暗变化。所以,在将各个图像块进行融和时,对于缝合线的处理十分重要。针对处理此拼接缝问题,本文采用了加权平滑算法。此种方法的核心思想是:图像块中重叠部分的像素点的灰度值由两个图像块中对应像素点的灰度值加权平均得到。使用如下公式进行缝合线处理:

4 实验结果及性能分析

为了验证该算法的有效性,将本取一幅512×384的大景深雾天彩色图像,在Matlab R2012b上进行仿真实验,图4-1为原图,即有雾图像;图4-2为基于暗通道先验的方法恢复的图像;图4-3为用本论文的研究方法所复原的图像。由实验结果可知,用本文的研究方法所处理的图像效果更加理想。

5 结论

本文给出了一种基于分块的大景深雾天彩色图像复原方法。由于渐进反卷积在复原图像的过程中对所有目标的去散射都是基于同一厚度的,这就导致了对于景深变化尺度大的图像无法满足在不同距离上的目标同时达到算收敛,而本文所用的算法能够将图像根据远近场进行分割,对远近场分别复原达到最优解,有效解决了上述问题。但该算法也存在一定不足之处,如在图像拼接缝的处理上还不够理想,有待研究。

参考文献

[1]R.Tan,"Visibility in bad weather from a single image"in Proceedings of IEEE Conference on CVPR(IEEE 2008)1-8.

[2]R.Fattal,"Single Image Dehazing"J.ACM Siggraph 08,1-9(2008).

[3]Kaiming He,Jian Sun,and Xiaoou Tang,"Single image haze removal using dark channel prior"in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (IEEE 2009),1956-1963.

匹配算法论文范文第8篇

关键词 图书馆学 情报学 研究热点 信息可视化

1引言

被Web of Science(下文简称“WoS”)中的SSCI数据库收录的图书馆学情报学即INFORMATIONSCIENCE&LIBRARY SCIENCE(下文简称“LIS”)类期刊共计85种(截止2016年4月7日)。刊载在这些期刊上的研究成果,一方面反映了世界主要国家或地区LIS领域研究的热点和前沿,另一方面,也反映了际上高水平研究者的其他科研信息。以往由于载文量巨大,加之受分析技术工具的限制,研究者多是运用人工逐篇抽样阅读的方法,对国际顶级期刊的部分文献进行研究,带有较强的主观性,无法完整、客观地对某个时间段内的全部文章进行分析。专家的主观分析虽然具有一定的指导意义,但往往缺乏公允性、完整性和客观性。笔者将WoS中的与北京大学图书馆编辑的《国外人文社会科学核心期刊总览》(下文简称《总览》)中重合的27种图书馆学情报学类期刊作为研究对象,并根据2014年影响因子的高低作适当增减,运用Citespace可视化软件,对WoS中2014-2015年刊载的3287篇文献进行科学计量分析。本文要探讨的问题是:近2年国际高水平的LIS期刊的研究热点及其覆盖的科学领域、科研机构,论文的国家或地区合作情况、核心作者与核心被引作者群、核心被引期刊概况。希望本文具有如下特点:全样本数据的完整性、研究对象的时效性、分析工具的客观性以及知识图谱的直观性等,为我国研究者了解和掌握国际LIS领域的研究热点、前沿、对象、方法、研究者、研究机构、核心期刊等情况提供完整、及时、客观、直观的数据分析,减少研究者获取本领域科研情报的盲目性,提高研究效率。

2研究方法

2.1引文分析法

1955年,加菲尔德(E.Garfield)在《科学》上发文提出了一种科学文献书目系统,可剔除对虚假、过时或完整性较差的数据的任意引用,使学者们可了解到对早期论文存在的批评。引文分析法至此正式产生。引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数据特征和内在规律的一种文献计量的分析方法。本文使用引文分析法,主要原因是该方法能回答以下三个问题:第一,某些文献为什么能持续成为研究者关注的核心?第二,这些核心文献中已经出现或即将出现哪些趋势?第三,某领域或学科的文献与其他学科的交叉呈现出何种关系或态势?引文分析有三种基本类型:①对引文数量进行研究,主要用于评价期刊和论文等。②对引文间的网状关系或链状关系进行研究。科学论文间存在着一种引用关系网,如A被B引,B被C引,C又被A引等,研究这种关系主要用于揭示学科的发展与联系,并展望未来前景等。③对引文反映出的主题相关性进行研究,主要用于揭示科学的结构和进行文献检索等。引文分析法的上述三种类型,分别回答和解释了上述三个问题。

2.2词频分析法与共现分析法

本文所指的“词”,即Citespace软件中的“Term”。美国著名情报学专家萨隆(G・Salon)认为,Term表示主题词、名词、标引词、情报项、文献著录项、标引与检索的信息单元等。词频分析是将文献中的多个因子联系起来的引证分析方法,它能科学地评价文献、文献作者的学术水平,揭示学科的热点、前沿以及发展趋势。共现分析法则是将文献中的各种共现信息定量化的分析方法,通过共现分析,可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用知识,并揭示研究对象所代表的学科或主题的结构与变化。在计算机技术的辅助下,共现分析在构建概念空间和实现语义检索、改进知识组织中文本的分类效果、分析文献中的知识内容关联、挖掘知识价值等方面彰显出独特的提炼和概括功能。通过软件进行词频分析与共现分析,能较好地抽取出所分析文献样本的热点、前沿趋势以及科学结构等关键情报。

2.3科学知识图谱与信息可视化方法

科学知识图谱(Mapping Knowledge Domains)是显示科学知识的发展进程与结构关系的一种图形,用可视化技术描述人类随时间拥有的知识及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系。在组织内创造知识共享的环境以促进科学技术研究的合作和深入。

信息可视化涉及计算机生成交互式信息图示的设计、开发和应用。首先要处理抽象的、非空间的数据。把非空间的数据转换成直观的、有意义的图像对该领域极其重要,这个转换的过程是一个创造性的过程,设计者可以赋予图像新的意义。本文运用科学图谱与信息可视化的理论,通过Citespace软件,将需分析的文献进行图像转化和处理,赋予客观、科学的意义。

2.4 LLR算法与PageRank算法

本研究采用LLR算法对聚类进行命名。LLR即对数似然比算法,全称Log-Likelihood Ratio。其基本原理是:假设对于类别Ci,词Wi的频度(oc),集中度(β)和分散度(丫)等指标组成向量Vji,选取聚类命名就是根据Vij来判断Wi是否可以作为类别Ci的特征词。LLR算法如下:

式中,LLR为词Wi对于类别Ci的对数似然比,p(Ci\Vij)和p(Cj\Vij)分别为在类别Cj和Cj中的密度函数。

PageRank网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种根据网页之间相互的超链接计算的技术,作为网页排名的要素之一,以Google公司创办人拉里・佩奇(Larry Page)之姓来命名的。该算法的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。文章运用Citespace中的Page-Rank算法,对相关数据结果进行PageRank排名,为数据分析提供另一个维度的视角。

3数据来源及分析工具

3.1数据来源

笔者通过WoS中的期刊引文分析报告(JCR:Journal Citation Reports社会科学版)查询2014年(2015年尚未公布)的"INFORMATION SCIENCE&LIBRARY SCIENCE”类别中被收录的所有期刊,共计85种(详见表1,以影响因子的值作降序排列)。由于这85种期刊并未完全聚焦在图书馆学情报学领域,因此,本研究结合北京大学的《总览》进行聚焦。《总览》的编撰历时2年多,由北京高校图书馆期刊工作研究会成员馆、国家图书馆等相关单位的33位图书馆专业人员参加研究,163位学科专家参加了核心期刊的定性评审,具有较高的指导意义。图书馆学情报学档案学期刊共计61种。经对比,WoS与《总览》重合的图书馆学情报学期刊共计29种,并根据检索结果以及影响因子适当增减。随之,以Web of Science核心数据库为检索库,以“出版物来源一下表27种期刊名称”和“时间跨度一2014年-2015年”,文献类型选择“Article”,语言类型选择“English”,共命中3287条文献记录,通过数据导出和处理,将文献记录以Citespace能识别的WoS输出格式导入Citespace软件中。

3.2分析工具

CiteSpace是一款着眼于分析科学文献中蕴含的潜在知识,并在科学计量学(Scientometric)、数据和信息可视化(Data and Information Visualization)背景下逐渐发展起来的一款引文可视化分析软件。本文使用Citespace 4.0.R4版本,对数据进行处理、分析、制图。此外,使用WoS自带的统计分析功能,结合Citespace的可视化分析功能,交叉配合使用。Citespace软件有多个不同版本,开发者截至笔者投稿之日,仍然在优化该软件,故该软件对某些项目的统计结果可能出现与WoS的统计有微小差异,可视为科学研究中的误差,但不影响主要数据分析。该工具已经不仅仅提供引文空间的挖掘,而且还提供知识单元之间的共现分析功能,如作者、机构、国家/地区的合作等。

4结果分析

4.1研究热点分析

研究热点可看作某研究领域中,研究者共同关注的一个或多个研究主题,笔者认为共词分析可反映目标领域的热点概况。通过Citespace对Term与Node的提取,可对3287篇文献的关键词进行共词(Co-words)聚类挖掘分析,运行结果如图1所示。该图反映了国际LIS领域近两年的热点问题,聚类号表示某词经LLR算法聚类后所在的主题。Mo-durility(M)即网络模块化评价指标,值越大,表示网络得到聚类越好,Q的取值区间为[0,1],当Q>0.3时得到的网络社团结构是显著的。Silhouette(S)是用来衡量网络同质性的指标,当其值>0.5时表示聚类结果是合理的,越接近1,同质性越高。通过LLR算法,M=0.8835,S=0.5014,得出的图谱合理、客观,研究热点聚类名称如图1、表2所示。

图1中黑色字体表示不同文献共同的关键词,“#数字”表示运用LLR算法对共同关键词提取后命名的聚类词,每个色块表示由各类不同的文献组成的具有相近研究主题的聚类。通过对关键词的聚类,得到15个研究主题,聚类间有交叉覆盖的现象,表示这些聚类之间存在研究主题上的交叉,其关系较为紧密,与其他聚类不交叉的色块表示该类主题具备较为独立的研究性质。以“#0,#1……”等形式对聚类进行编号(Cluster ID),聚类号越小,表示该聚类的经典文献数量(Size)越多,Silhouette值表示经典文献之间的紧密程度,Mean(Year)项表示平均年份,可反映聚类中文献的时效性,Top Terms即以LLR算法命名的聚类名称。经过自动聚类并结合图书馆学情报学专业知识,相关度较高的关键词聚类情况见表2。

基于LLR算法的聚类名称,可客观反映2014-2015年国际图书馆学情报学研究领域的热点问题,可将上述聚类归纳为四个方面。

(1)传统LIS领域。

布莱达(Mas-Bleda)等基于欧洲的在线出版物,使用爬虫技术对1525名高被引科学家进行研究,这是第一个对链模式高被引研究者机构网站的研究,用以确定哪些网络资源被科学家们。斯图德(Sotudeh)等使用科学计量方法与比较的方法,就女性科学家在科学生产力、影响等方面与男性科学家进行对比研究,发现虽然女性科学家人数较少,但同样有较好的科研成果和影响。拉弗蒂(Raf-ferty)等通过对八位用户的调查访谈,对基于故事图像的索引输入法进行了探讨。戈卢布(Gol-ub)等对将杜威十进制分类法(DDC)作为建立知识组织系统(KOS)增强社会标签,提高主题索引和检索信息效率进行了研究,结果表明受控词汇表索引和检索的重要性是@而易见的。苛勒(Koler)等以发表在2007年的14个国际期刊中的文献为研究对象,对土木工程领域开放获取文献的被引次数进行研究,结果表明开放不是引用的充分条件,但增加了期刊上发表文章的引用次数。阿尔瓦雷斯(A1-varez)等使用文献计量方法对虹膜识别研究领域进行了全面概述。郭(Kuo)等使用共被引方法模型对核心文献之间的关系进行了研究,实现了运用多元统计技术来构建知识结构的表征。吴(Wu)等通过对台湾大学32名被试者进行调研,研究了研究生如何看待和使用谷歌学术搜索。索步尔(A1-Shboul)等运用角色法、系统设计法等,以约旦王国的一个先进的信息通讯技术环境抽样为例,研究了集成现有的信息需求行为的模型。布龙斯坦(Bronstein)等运用分布式的信息检索自我认知量表(IRSPS)对205名学生进行匿名问卷调查,发现参与者报告了高水平的自我效能感。

(2)医学信息领域。

戈尔泰普(Gultepe)等开发了一个决策支持系统,用于患高乳酸盐血症的高危病人的生命体征的常规测量,支持实验室研究。斯塔尔茨(Stultz)等对剂量警报是否合适进行了评价,将警报与订单分类,比较了儿科医院内定制的和非客户化的恰当的剂量警告范围。贝格海莱(Baghele)等运用文献计量方法对Pubmed数据库中印度牙医的文献的趋势进行了评估,发现从1960年到2012年,每位印度牙医平均贡献了0.53篇文献。

(3)心理学与计算机科学领域。

加维兰(Gavilan)等探讨了移动广告引发的心理意象的作用及其对信任和购买意愿的中介效应。特拉(Tatry)对国与国之间的合作网络映射到可视化的强度关系进行了研究。谢(Xie)探讨了社会媒体在数字图书馆中的应用和识别等相关问题。

(4)管理科学领域。

齐(Chi)等研究了非源代码项目的特点,并在社会科学文献评价中对德国对政治科学出版物进行了研究,结果表明,非源代码项目显著提高了出版物的数量。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。克拉托赫维尔(Kratochvil)等对使用在线学习进行信息素养教学进行了研究。雷德斯多夫(Leydesdorff)等测量了三螺旋协同在俄罗斯国家级、省级区域创新系统中的水平。斯瓦尔(Swar)应用社会网络分析技术的混合方法和三重螺旋指标,以网络知识的视角对南亚的信息通信技术基础设施的重要性进行了研究。

从上述领域的研究主题来看,研究热点呈现的特点是集中在传统的LIS领域,研究主题不断深化、扩展,使用的研究方法规范、科学。近2年的国际LIS研究主题中,网络计量、索引、文献计量、信息需求、信息检索是持续的研究热点。

4.2研究前沿分析

笔者认为研究前沿分析主要以共被引(CitedReference)的文献网络关系加以体现。科学计量学的奠基人普赖斯(Price)提出“研究前沿”的概念,即科学引文网络中高被引且时效性强的文献集合。他认为研究前沿能动态地反应某研究领域的本质。加尔菲尔德(Garfield)将研究的前沿定义为一组核心的高被引论文和引用论文,认为研究前沿的名称可以从论文标题中出现频率最高的词或短语中提取。陈超美认为研究前沿是一组及时、动态且有潜在研究价值的问题,研究前沿的知识基础是引证和共引痕迹。本文中,Citespace的具体操作设置是:“Term Source”部分同上文,“Node Type”部分选取“Cited Reference”选项。运行数据后,得到研究前沿聚类图,见图2。

从图2可见,将共被引文献聚类后得到16个研究主题。结合图书馆学情报学专业知识,排除相关度较小的聚类后,以“#0,#1……”等形式对聚类进行编号,聚类号越小,其聚类的文献数量越多。共被引文献的聚类情况如表4所示。

基于LLR算法的聚类名称可客观反映2014-2015年国际图书馆情报学研究领域的前沿问题,将上述聚类归纳为三个方面。

(1)传统LIS领域。

米克斯(Meeks)等对交集电子健康记录(EHR)进行研究,检查以往开发的概念模型的适用性,以实现全面了解其对英国国民健康服务(NHS)的影响。安珂尔(Ancker)等对电子健康记录的影响(EHRs)结果的个体差异性进行了研究。洛伦岑(Lorentzen)等运用网络计量学的方法,探讨了计量学和网络挖掘两个领域潜在的更紧密的联系和合作。韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。萨沃莱宁(Savolainen)等基于激励因素评价理论,研究了情绪和情感激励在信息检索过程中的五方面的影响。牛(Niu)等基于有效的科学引文角度,用文献计量法分析了科学引文索引扩展数据库中1992―2011年地球科学的相关科研情报。谭(Tan)等对1995年到2010年的科学引文索引扩展中的蛋白质学文献进行了计量分析,评估全球相关科学成果产出,发现研究人员集中在生化研究方法、生物化学和分子生物学。

(2)管理科W领域。

韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。常(Chang)等使用社会网络分析来确认天文研究机构具有强有力的国际合作关系,研究发现最强的关系体现在相关机构的跨洲科研合作。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。

(3)计算机科学领域。

提图埃尔(Turel)等对管理团队提供的集中在信息技术资源的战略管理进行了研究,综合了资源和应急管理信息系统的观点与公司治理理论,检查董事会层面的IT治理的关键前因和后果(ITG)。庞(Pang)等基于资源观,尝试建立一种有效的测量技术,提出一种评估这些资源的协同效应对公司的能力影响的方法,并使用组织理论发现IT驱动的公司的战略角色资源。陈(Chen)等研究了信息技术(IT)的业务价值,该研究通过调查填补了IT的业务价值的中介作用这一空白,研究了该业务流程的灵活性和环境因素的调节作用。该研究的对象属于计算机科学领域,其研究方法则属于管理科学领域。

从上述领域的研究主题来看,研究的前沿呈现的特点是运用传统LIS方法研究跨学科领域的对象(如有机发光二极管、交集电子健康记录、金融等)。LIS在计算机科学、管理科学、医学、生物学实践领域的应用将成为今后LIS领域的研究重点。

4.3科学领域结构

科学领域结构可反应LIS领域所涉及的各个学科之间的合作、交叉关系。可从合作者的聚类、文献的聚类等方面进行探索,但最直观的方式,是直接分析由WoS导出的数据中的分类号(Category),运行结果如图3所示。

由图3和表6可知,从发文量来看(图中年轮的大小表示发文量的多少),LIS领域近两年覆盖的主要科学领域依次为:图书馆学情报学、计算机科学、健康护理科学与服务、医学信息、政府与法律、法律、商业与经济、管理领域。从PageRank维度来看,政府与法律的中性度最高,健康护理科学与服务、商业与经济次之,图书馆学情报学、计算机科学、法律、管理紧随其后。这表明,在图书情报领域的高水平成果中,受网络关注最高的是政府与法律领域。本研究样本文献构成的研究分布网络显示,上述研究领域互相交叉,这表明当前的学科研究趋势正朝着以图书馆学情报学为主,以其他相关领域为辅的多学科交叉研究的方向演化。

5结论

本文依据Citespace的引文分析及可视化功能,在识别和探讨LIS领域的研究热点与前沿动态问题过程中,得出以下结论:

首先,通过对2014-2015年SSCI数据库中27种核心图书馆学情报学期刊刊载的3287篇文献进行研究,通过关键词与主题的LLR聚类分析,发现传统图书馆学情报学、管理科学、计算机科学以及医疗信息等领域的图书馆传统服务和计量、信息需求与检索、索引、信息检索、组织工程、名称匹配算法、网络2.0、非源项、技术接受模型、三螺旋理论等主题是近两年国际LIS领域的持续研究热点。