首页 > 范文大全 > 正文

一种用于汉字识别的字形编码系统设计与实现

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种用于汉字识别的字形编码系统设计与实现范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 汉字字形变化多种多样,印刷体字符具有字体差异,手写字体更是没有统一的规则,识别难度非常大,当前用于汉字识别的字形编码方法大多依据字符,无法区分笔画相近的汉字。为此设计一种新的用于汉字识别字形编码系统,介绍了汉字字形编码的原理,并给出了字形设计方案,依据编码原则,按照汉字被拆分的部件个数对汉字字形编码方案进行设计。详细介绍了汉字输入编辑器IME的结构,通过IME实现汉字的输入。依据汉字的使用频率与分布特性,通过数理统计工具设计含有汉字活动字库的操作系统,主要包括CC?DOS和MPC?DOS操作系统。实验结果表明,采用所设计系统对汉字进行识别精度较高且编码时间少、能耗低。

关键词: 汉字识别; 字形编码; 印刷体字符; 汉字输入编辑器

中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)02?0060?04

Abstract: As Chinese character glyph changes variously, the printed characters have the font difference, and the rules of handwriting fonts have not been unified, the identification difficulty is very big. The current font coding method for Chinese characters identification is based on characters, and unable to distinguish between similar strokes of Chinese characters, so a new glyph coding system used for Chinese character recognition is designed. The principle of Chinese character glyph coding is introduced and a glyph design scheme is given in this paper. Chinese glyph coding scheme is designed according to the principles of coding and the quantity of the dismantled parts of Chinese characters. The structure of the input method editor (IME) for Chinese characters is introduced in detail. The input of Chinese characters is achieved by IME. According to the use frequency and distribution characteristics of Chinese characters, the operating system with Chinese character activity font library was designed by means of the mathematical statistics tools, in which the CC?DOS and MPC?DOS operating systems are included. The experimental results show that the designed system′s the identification accuracy for Chinese characters is high, its encoding time is less, and its energy consumption is low.

Keywords: Chinese character recognition; font encoding; character in printing form; editor for Chinese character input

0 引 言

随着计算机的逐渐发展,人们希望计算机能够独立识别印刷在纸上或人写在纸上的文字[1?3]。因此,设计一种有效的字形编码系统具有重要意义,已经成为相关学者研究的重点课题,受到越来越广泛的关注[4?6]。

目前,有关字形编码的研究有很多,相关研究也取得了一定的成果,其中,文献[7]将汉字字形当成一种随机的二维点阵,将受到的干扰看作是加性的随机噪声,通过二维点阵对汉字字形进行编码,该方法形式简单,但未充分体现汉字字形的结构特点,编码性能不高。

文献[8]将汉字字形划分成部件与单字两个层次,将笔画看作基元,用笔画的交结点与相对位置对字形进行编码,同时提出优先属性关系,构建汉字的优先属性关系图,准确完成字形编码,但由于很难准确提取笔画,大大影响了编码结果。

文献[9]提出一种基于句法结构的字形编码方法,该方法通过训练阶段与识别阶段共同实现,训练阶段将已知结构信息的字形看作训练样本,对基元及其之间的连接关系进行识别,再通过构造句子的方法对生成场景的过程进行描述,从而推断出生成该场景的一种文法规则,即编码规则,识别过程就是通过训练过程得到的编码规则对汉字字形进行编码。但该方法在受到干扰的情况下,对字符基元的采集较为困难,抗干扰能力很弱。

针对上述方法的弊端,设计了一种新的用于汉字识别的字形编码系统,介绍了汉字字形编码的原理,给出了字形设计和编码方案。详细介绍了汉字输入编辑器IME的结构,通过数理统计工具设计含有汉字活动字库的操作系统。

验结果表明,采用所设计系统对汉字进行识别精度较高,且编码时间少、能耗低。

1 汉字识别原理

汉字识别为视觉信息和非视觉信息相互作用的结果,可利用“自顶向下,逐步求精”的信息加工形式实现。采用字形编码系统对汉字进行识别的原理如图1所示。

由图1可知,输入汉字字形后,相关信息被保存至视觉信息存储器中,特征分析器通过笔画特征和间架结构特征对字形特征进行分析,将分析结果看作是“感觉输入”传输至图形综合处理器中。图形综合处理器依据汉字的字义、间架结构知识、笔画笔顺和读音等知识对视觉扫描到的汉字进行“自顶向下”的加工,获取编码规则。计算机依据编码规则即可实现汉字识别。

2 一种用于汉字识别的字形编码方案

2.1 汉字字形设计方案

汉字可以看作是由多个汉字部件,通过某种位置关系组合而成的。常见的汉字部件如图2所示。

常见的汉字部件之间的组合关系如表1所示。

在表1描述的组合关系中,最常见的是“左右关系”与“上下关系”,其中“左上右下”与“左下右上”也可被看成“左右关系”或“上下关系”,分别用“LR”和“UD”进行描述。依据上述分析,本节对采用“LR”与“UD”关系的汉字进行统计,构成一个集合G,G中的汉字用W进行描述,用W定义两类字形,如表2所示。

2.2 汉字字形编码方案

汉字字形编码就是依据某种规则对第2.1节拆分出的基本部件与单笔部件进行编码,通过输入对应部件的代码达到汉字识别的目的。

本节提出的汉字字形编码方案必须满足以下三个原则:

(1) 汉字集合G中的所有汉字均需具备两种以上的字形,包括两种;

(2) 针对相同的汉字,如果字形不同,则编码值也不同;

(3) 针对不同汉字,如果字形类别相同,则编码值相同。

本节依据汉字被拆分的部件个数N,按照以下三种情况进行讨论:

(1) 在N=2的情况下,用A描述汉字拆分后的第一个部件,用B描述汉字拆分后的第二个部件,则相应的编码方案为:

在汉字部件A和B相离的情况下,编码值是“0”;

在汉字部件A和B相邻的情况下,编码值是“1”,这时所有汉字均可嵌入一位Bit信息;

(2) 在N=3的情况下,用A描述汉字拆分后的第一个部件,用B描述汉字拆分后的第二个部件,用C描述汉字拆分后的第三个部件,则相应的编码方案如下:

如果A和B相离,B和C相离,则编码值是“00”;

如果A和B相离,B和C相邻,则编码值是“01”;

如果A和B相邻,B和C相离,则编码值是“10”;

如果A和B相邻,B和C相邻,则编码值是“11”;

这时所有均可嵌入两位Bit信息。

(3) 在N≥4的情况下,可依据上述两种情况的编码方案进行编码。

而单个汉字的可嵌入信息长度会随N值的增加而逐渐变大。为了便于分析,本节将上述三种情况合并成一种情况进行分析,也就是将汉字拆分后的第一个部件称作A,其余部件均称作B,则任何情况均可看作是第一种情况进行处理。

本节采用汉字输入编辑器IME实现汉字的输入,其核心为转换引擎,主要用于汉字的输入。在IME中,转换引擎是依靠汉字字形编码方案实现的。IME结构如图3所示。

计算机检测到汉字后, IME的转换引擎将截获该汉字,判断其所属类型,依据汉字类型进行汉字内码到输入码的转换,从而实现汉字的输入。

4 字形编码操作系统

依据汉字的使用频率与分布特性,通过数理统计工具设计了含有汉字活动字库的操作系统,大大减弱了系统对存储器的需求。本节采用的字形编码操作系统主要包括CC?DOS和MPC?DOS。

CC?DOS为了支持国家标准GB2312―80中的汉字和字形符号,需要用户提供230 KB的内存空间对全部汉字及图形符号的字模进行存储。CC?DOS操作系统能够有效实现字形编码处理,但所需的存储空间过多,其结构如图4所示。

实际上,经大量研究表明,人们通常使用的汉字中,最常用的是580个,常用的是810个,次常用的是1 022个,基本能够覆盖用户使用汉字的99%。所以CC?DOS操作系统实质上降低了空间的有效信息密度。

针对CC?DOS操作系统的弊端,引入MPC?DOS操作系统,通过汉字使用频率与分布特性,利用数理统计工具,结合动态调度覆盖算法对汉字字形进行编码,大大降低了系统对硬件的需求。MPC?DOS操作系统通过软件总线技术对字形编码需求进行分析,依据编码方案确定模块功能,以便于针对不同类型的硬件配置和环境,组成对应的基本系统,为不同用户提供针对性的服务。MPC?DOS操作系统结构如图5所示。

为了使MPC?DOS操作系统和基本中文软件达到较高的可靠性,需考虑其维护与移植工作,因此,应尽量采用计算机语言实现字形的编码。下面给出部分用于字形编码的计算机语言:

Procedure GB(import,export);

Different I,J character

Start

for

I=3*17+1 to 8*17+15

Start

for

J=3*17+1 to 8*17+15

start

read (chr(130+I))

read (chr(130+J))

end

end

end