首页 > 范文大全 > 正文

立足细化处理解析脱机手写汉字识别

开篇:润墨网以专业的文秘视角,为您筛选了一篇立足细化处理解析脱机手写汉字识别范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:脱机手写汉字识别是我们面临的最困难、最具挑战性的课题,而无论是在办公自动化方面,还是在机器翻译方面,脱机手写汉字识别的应用前景都非常广泛,因此,有必要立足细化处理,对脱机手写汉字识别进行深入研究,使其在各个领域中发挥更大应用价值。

关键词:细化处理;脱机手写汉字;预处理;特征提取

中图分类号:TP391.43

随着电子计算机网络的迅速普及,人们对信息的获取和记录开始运用计算机去代替那些机械、重复的劳动,通过计算机对信息、文字以及数据进行编辑、处理、保存,从而满足人们的不同需要,因此,研究手写汉字识别对于解决信息的高速、自动地输入具有重要现实意义。手写汉字识别中的脱机手写汉字识别已成为文字识别领域中最困难、最具挑战性的课题。下面简要论述手写汉字识别特点,并对基于细化处理的脱机手写汉字识别过程做出解析

1 手写汉字识别特点

从汉字识别角度分析,手写汉字字体具有类别多、字体结构复杂、字形变化多、相似字多等特点,这也就决定了手写汉字识别过程比较复杂。首先,在基本笔画方面,印刷体汉字笔画基本上是横平竖直,折笔拐角大多是尖锐的钝角、锐角或直角,而手写汉字笔画却不具备上述特征,折笔拐角通常为圆弧,比如在写“品”字时,将三个“口”变为三个圆;将较短的笔画变为点;在起笔或折笔拐角处额外增加笔锋。其次,书写者的手写习惯不同,很多笔画表现的比较混乱,连笔、断笔现象较为严重,而且笔画与笔画之间、部件与部件之间的相对位置发生变化,这也就使汉字笔画交叉位置错误,部件大小不一致。另外,我们不难发现,在手写稿中普遍存在涂改、添加甚至将段落更改的情况,这就给脱机手写汉字识别过程中的预处理、加工整理等带来了困难。综上,有必要做出规定对构成汉字的笔画以及笔画之间的相互关系进行限制,书写者不能随意书写,特别是字体不能太宽,这样才能提高识别系统的辨识率,当然,规定限制应适中,使书写者能够在较短时间内适应,也使手写汉字识别系统得到更广泛的推广和应用。

2 基于细化处理的脱机手写汉字识别过程

2.1 手写汉字的预处理

脱机手写汉字识别过程中,首先就要进行原始图像的预处理,去粗取精、去伪存真,保证预处理质量,达到优化图像、消除干扰的目的,为整个汉字识别系统性能的发挥提供保障。预处理流程为扫描输入图像――平滑去噪――二值化――倾斜校正――汉字切分――归一化。

平滑去噪的主要目的就是按特定需要突出一副图像中的有用信息,并消除输入汉字时混入的噪声,在处理过程中不应破坏原始图像的边缘轮廓和线条,保证图像清晰。平滑去噪方法主要有线形滤波器、统计排序滤波器、平滑频率域滤波器。以统计排序滤波器为主,该方法其实是利用3×3的矩阵,P为待处理点,通过对P点的八邻域进行分析来确定P点平滑后的像素值。

图像二值化是将图像中存在的不必要的信息去掉,提高系统辨识速度,通常采用256级灰度图或二值图进行处理,但是在处理过程中会造成大量信息的丢失,必须研究出使二值图像能够保持原始图像的重要特征或细节的二值化方法。图像二值化大部分是基于阈值的分割法,包括迭代最佳分割阈值算法、双重阈值设定算法,汉字书写纸张不同,应选择不同的二值化方法,在处理过程中还应注意纸张的颜色、文字灰度等。

2.2 手写汉字的细化处理

手写汉字细化是通过一定的处理手段将汉字图像中重要的像素点保留下来,剔除不重要的像素点,这在脱机手写汉字识别中非常重要。在汉字细化过程中,要保证原有笔画的连续性,将笔画宽度细化为单个像素宽度,经过细化后得到的汉字骨架应是原始汉字笔画的中心线,同时保持原有汉字的几何特征和拓扑。细化算法发展到现在可分为以像素迭代删除为基础以及不以像素迭代删除为基础的算法,比如Hilditch细化算法、FPA细化算法、SPTA细化算法等,其中SPTA算法的改进细化算法的细化效果非常好,但是处理过程中必然也会出现一些细微误差,这就需要我们在处理过程中对特殊点进行修复,将其对提取交叉点或端点的影响消除。

2.3 手写汉字的特征提取

通过特征提取将原始图像信息转换成若干个能将汉字结构反映出来的特征,从而进一步压缩汉字原始图像数据,提高汉字辨识精确度和速度,另外,对于提取的特征还必须具有代表性,信息没有较大的冗余度。特征提取有全局统计特征法、局部统计特征法,这些方法是主要是基于汉字的几何拓扑性质上的特征比如特征点、笔画特征、笔画序列、部件等进行处理的,抗干扰能力强,受字体整体和局部变化的影响小,能够很好将相似字区分出来。特征提取完成后采用弹性网格特征、方向线素特征、Gabor特征、矩特征进行特征统计,处理过程中,要将汉字结构特征和统计特征等多种特征结合起来,这样能够有效实现各种特征的优势互补,从而将汉字特征全面反映出来。

2.4 手写汉字的分类识别方法

脱机手写汉字识别属于大规模的模式识别问题,特征空间非常复杂且特征向量维数很高。用于脱机手写汉字识别的分类器有单分类器和多分类器两种,其中多分类器是当前的主流识别技术,也是未来汉字识别领域的发展趋势。常用分类器有基于距离的分类器、人工神经网络分类器和支持向量机分类器,其中基于距离分类识别法中距离函数的选择对分类效果具有很大影响,应根据汉字特征选择最为合适的方法以提高统计特征的稳定性和准确性;支持向量机结构简单,性能良好,学习速度快,分类识别方法在处理小样本的机器学习、高维的大规模模式识别以及非线性问题上具有一定优势;人工神经网络分类识别法能够处理一些环境信息复杂、背景知识不清晰、推理规则不明确的问题,当前人工神经网络中的BP神经网络、ART升降网络的应用都比较广泛。

3 结束语

脱机手写汉字识别是模式识别的重要分支,同时也是文字识别领域中我们面临的最困难、最具挑战性的课题。近年来,脱机手写汉字识别技术得到了新的发展,特定场合的脱机手写汉字识别系统研究也逐步走向使用,本文对基于细化处理的脱机手写汉字识别过程进行了分析,概述预处理、细化处理、特征处理、分类识别等关键技术和主流方法,未来,我们应当进一步对图像预处理技术和分类识别方法进行改进,简化处理步骤,优化汉字数据集,加大对无分割脱机手写汉字识别技术的研究,为该领域的发展指明方向。

参考文献:

[1]王玉娜.基于数学形态学脱机手写汉字细化的研究[D].天津师范大学,2010.

[2]张欣.基于四角结构特征的脱机手写汉字识别[D].河北大学,2010.

[3]赵继印,郑蕊蕊,吴宝春,李敏.脱机手写体汉字识别综述[J].电子学报,2010,38(2):405-411.

[4]贾新彪.基于笔画结构特征的脱机手写汉字识别[D].河北大学,2010-06.

[5]邱瑾.一种具有统计广义特征反馈的智能脱机手写体汉字识别系统的研究[D].合肥工业大学,2012-04.

作者单位:怀化学院 计算机工程系,湖南怀化 418000