首页 > 范文大全 > 正文

联机手写维文字符的预处理和特征提取方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇联机手写维文字符的预处理和特征提取方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:根据维吾尔字符的特点,介绍了归一化,平滑处理,重采样等几种预处理方法。并结合统计特征和结构特征各自的特点,提出了不变矩,投影,方向码,环等特征,用来构造字符的特征向量,便于进行字符的训练和识别。

关键词:预处理;不变矩;方向码

中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)07-1607-03

The Method of Preprocessing and Feature Extraction for Online Handwritten Uyghur Characters

HAN Lin-feng, ZHAO Hui

(College of Information Science and Engineering, Xinjiang University, Wulumuqi 830046, China)

Abstract: According to the characteristic of the Uyghur, several preprocessing methods are introduced like normalization, smoothing, resampling and so on. Combined with statistical and structural features, features of Invariant Moment, Projection, Direction Codes, Loop and so on are adopted, in order to construct feature vector and train.

Key words: preprocessing; invariant moment; direction codes;

联机手写字符识别技术的研究是从上世纪五十年代开始的,经过几十年的发展,英文,汉字的手写体识别技术已经相当的成熟。在新疆,印刷体维吾尔文识别技术也取得了很好的成果,但手写体维吾尔文的识别还处于实验性阶段。通过对英文,汉字,阿拉伯文的字符识别技术进行研究,提出了一种联机手写维吾尔字符识别的预处理和特征提取方法

维吾尔文字母表中有32个基本的字符,每个字符一般都有两种或者四种书写形式。根据字符在单词中位置的不同,其书写形式可以分为四类:独写形式,尾写形式,首写形式和中写形式。在维吾尔文中,存在很多相似的字符,它们的主体笔画相同,区别仅仅在于附加笔画的类型,数目和位置等,如图1所示。相似字符的存在给识别带来了难度,如何选择合理的特征将成为影响字符识别率的关键因素。

1 数据的采集和预处理

将手写板和PC机进行相连,在手写板上书写字符时,可以获取一组带有时序信息的数据:(Xi,Yi,flag)。其中,(Xi,Yi)代表每个采样点的坐标值,flag通常是一个标志位,取值为0或者1,用来标示书写笔是否与手写板相接触。对这些数据进行分析,可以获取的信息有:每个字符的笔画数目;字符中每一个笔画对应的坐标序列值;每一个笔画的起始和结束位置。获取数据之后,需要对其先进行预处理,而后再进行特征的提取。

1.1 去除干扰点

这里的干扰点包括重复点和噪声点。当书写笔的笔尖在手写板的同一个位置上停留时间过长时,手写板就会在该点上重复采样,反映到坐标序列中就是会有一段坐标值完全相同的数据。同时,在对数据进行平滑处理和归一化处理之后,也有可能产生新的重复点。因此需要删除重复点,只保留一个坐标点即可。

噪声点的出现可能是由于手写板等硬件设备引入的,也有可能是书写时手的抖动引起的。线性平滑技术是一种比较简单的去除噪声点的方法,对于坐标点(xi,yi)进行平滑处理之后的新坐标可以通过公式(1)进行计算:

(1)

1.2 归一化处理

在手写板上书写字符时,其大小和位置不易固定,为了使提取的特征更加有效的反映字符的信息,需要进行归一化处理。

1)位置归一化:有两种比较简单的位置归一化方法:基于质心的归一化方法和基于字符外边框的归一化方法[5]。其中,基于质心的归一化方法,需要先计算字符的质心,然后将质心移动到指定的位置上,联机字符的质心可以利用公式(2)进行计算。基于字符边框的归一化,需要先计算字符坐标的四个边界得到字符的外边框,然后将边框的中心移动到指定的位置上。

(2)

其中,f(x,y)=1表示该像素点为字符上的一个采样点,f(x,y) =0表示该处像素为背景点。

2)大小归一化:利用线性归一化,可以将字符的外边框按比例缩放成为固定的尺寸。在对字符的X,Y坐标进行缩放时,可以采用相同的比例因子,也可以采用不同的比例因子。当采用不同的比例因子时,缩放之后字符的形状有可能发生严重的变形,因此这里采用等比例因子进行缩放,如公式(3)所示。

(3)

其中,xmax,xmin,ymax,ymin四个值确定了字符的外边框。经过上述公式的转换,可以将字符缩放为MxN大小(这里取48x48),在缩放的同时将点(xmin,ymin)平移到(x0,y0)处。

1.3 插值

在进行笔迹的采集时,书写过快将会导致采集到的坐标点比较稀疏,不利于反映笔画的走势以及后期的特征提取,因此需要在间距比较大的坐标点之间填补一些坐标点。本文采用运算效率较高的Bresenham算法进行插值。此外,选择合适的参数,可以使得插值后的坐标点足够的密集,由此获得的字符二值图像将更加的真实,更利于后期统计特征的提取。

1.4 重采样

用手写板采集字符坐标数据时,书写速度可能会忽高忽低,这就会使得采集的样本点的间隔不相等。为了使得沿笔画方向上的采样点的间隔尽可能的相等,需要进行重采样处理。其基本思想如下:

假定起始点为pb,沿着笔画的方向,依次累加相邻两点之间的距离,当距离和sumL大于采样间隔ΔL,并且对应的坐标点为pe,那么,pe成为一个新的采样点,删除pb和pe之间的所有的点,并以pb为新的起始点,按照以上的步骤重新计算距离和,寻找下一个采样点,直到笔画的终点为止。

此外,为了避免删除某些关键点,如笔画中的拐点等,这里采用分段采样的方法。先利用Douglas算法[4]提取字符笔画序列中的转折点,再以这些关键点为分界点进行分段采样。

2 特征提取

手写字符的特征一般可以分为两类:统计特征和结构特征。统计特征主要反映了字符点阵图像中采样点的分布情况,常用的特征有投影特征,网格特征,笔画密度特征等。结构特征反映了字符笔画的结构特性,如“尖”,“环”,“交叉点”等。同时提取这两类特征,将会更好的反映出字符携带的信息。

1)不变矩特征:文献[3]中提出图像的7个不变矩具有平移、旋转、比例不变性,在目标识别、图像匹配、形状分析等领域得到了广泛的应用。对于联机字符的识别,先根据字符的坐标序列值,构造相应的字符点阵图像,然后再根据公式(4)求得七个参量作为字符的不变矩特征。

(4)

其中,归一化中心矩μpq的计算如下:

(5)

其中,N为字符二值图像中黑像素点的数目。

2)投影特征:对联机字符数据进行预处理之后,为其构造一个48x48的二值图像,并将该图像的宽和高分别平分为八等分。对该字符图像分别在水平方向和竖直方向做投影,统计行向或列向上每个条形区域内的黑像素点的数目,将统计结果作为字符的一类特征,如图2所示。经过投影,得到一个16维的特征向量。

3)方向码特征:对联机字符提取关键点之后,可以利用相邻两个关键点间的方向特征大致描绘出整个字符的笔画走势,常用的方向码有八方向码和四方向码两种,如图3所示。

对图3(c)所示的字符提取关键点之后,获得的主笔画和附加笔画的四方向码分别为:2223344和2。可以看出,获取的方向码中存在着冗余,需要对其进行合并。所谓合并,就是将相邻的相同编码合并为一个编码的过程。对上述字符的主笔画方向码进行合并之后得到:234。

4)“环”特征:维吾尔文中的一些字符存在着明显的环路,因此“环”的存在与否可以作为一个全局特征对字符进行描述。在联机手写字符的坐标点序列中寻找“环”时,可以通过判断笔画序列中每两条非相邻线段间是否相交来实现[6]。

5)十字交叉特征:以字符主笔画的质心为原点,分别在水平方向和竖直方向上划一条直线,统计两条直线与字符主笔画的相交次数,该特征反映了字符的整体情况。提取特征之后,得到一个四维的向量。

3 分类器的选择

与脱机字符识别相比,联机字符识别最大的特点是获取的数据中含有时间信息,这种信息能够大大降低识别的难度。在模式识别领域中,HMM是一种对时序变化信号进行处理的概率模型,被广泛应用于语音识别,字符识别,人脸识别等领域[7]。

HMM是一个具有双重随机过程的概率模型,其中之一是Markov链,它是用来描述状态的转移过程,通常是不可见的;另外一个随机过程是描述状态和观察值之间的统计对应关系,该过程是可见的。HMM中的主要参数有五个:Markov链的状态数目N,每个状态对应的可能出现的观察值数目M,初始状态转移概率π,状态转移概率矩阵A,观察值概率矩阵B。对于一个给定的模型,N和M的值通常是一定的,因此一个HMM可以简单记为λ=(π,A,B)。

HMM有三个基本问题需要解决:

1)概率估计问题:给定一个HMM模型λ=(π,A,B)和一个观测序列O=O1,O2,…,OT,如何计算该观测序列出现的条件概率P(O/λ);

2)最佳状态序列问题(解码问题):给定一个观测序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何在最佳意义上确定一个状态序列Q*=q*1,q*2,…,q*T;

3)参数估计问题:给定一个观测序列O=O1,O2,…,OT,如何确定HMM的参数λ=(π,A,B),使得P(O/λ)为最大值。

针对以上三个问题,研究者分别提出了三种算法加以解决。其中,前向后项算法用于解决概率估计问题,Viterbi算法用来解决解码问题,Baum-Welch算法用来解决参数估计问题,即模型的训练。

在利用HMM解决实际问题时,首先需要确定模型的结构以及状态数,常用的结构类型为左右模型,而状态数的确定要根据实际情况进行设定,不宜过小或过大。

4 结论

本文对联机手写字符识别中的预处理算法进行了研究,并介绍几种特征提取方法。提出将字符的统计特征和结构特征结合起来使用,以便更好地利用字符所含的信息来构造特征向量,提高字符的识别率。同时,简单介绍了HMM的基本思想。下个阶段的工作将是对HMM进行深入研究,并设计一种合理的分类模型,利用上述的特征向量来对维吾尔字符进行训练和识别。

参考文献:

[1] 哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与发展[J].计算机学报,2004,27(11):1480-1484.

[2] 袁保社,吾守尔.斯拉木.一种手写维吾尔文字母识别算法[J].计算机工程,2010,36(2):186-188.

[3] Hu M K.Visual pattern recognition by moment invariants[J].IRE Trans.on Information Theory,1961(8):179-187.

[4] Douglas D,Peucker T.Algorithms for the reduction of the number of points required to represent a digitized line or its caricature[J].The Canadian Cartographer, 1973,10(2):112-122.

[5] 边肇棋.模式识别[M].2版.北京:清华大学出版社,2006:235-237.

[6] 科尔曼.算法导论[M].2版.北京:高等教育出版社,2002:575-580.

[7] Rabiner L R.A tutorial on hidden Markov models and selected app lication in speech recognition[J].Proceedings of IEEE,1989,77(2):257-286.