首页 > 范文大全 > 正文

基于PCA变换和k近邻法的印刷体数字图像识别

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于PCA变换和k近邻法的印刷体数字图像识别范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:随着当今社会的日新月异及信息化进程的快速发展,我们如今正被数字化时代笼罩着,数字正朝着庖代我们对话语和文字的语言表达、记忆的方向进展。本文通过PCA变换和k近邻法对数字图像识别进行研究,比较了Bayes方法、最近邻法和K-近邻法的识别效率,最后通过PCA变换和K-近邻法的印刷体识别算法的系统设计实验,解释了K-近邻法的识别优势。

关键词:PCA变换;k近邻法;数字识别

中图分类号:TP391

1PCA的基本思想

PCA是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

PCA所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,通过数学表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此构造出第三、四……第p个主成分。

2k近邻法

2.1模式识别方法

模式识别是指对事物、现象的相关信息进行分析、处理从而进行有效的辨认、描述的过程,首先,选择一定的样本,结合样本间的相似度设计对识别样本进行分类决策的分类器。由预处理、模式特征或基元选择、识别组成,系统的简单框图如下图所示:

模式识别简单框图

2.2K-近邻法决策

一般意义上讲,在知道系统分布密度的条件下,Bayes理论所设计的分类器性能最越优,然而,在实际应用过程中,繁琐的系统分部密度求取经常给人们带来很多的不方便,且很多时候,参数或概率密度函数未知,所以,Bayes方法没能广泛应用,非参数模式识别分类方法一般能更好的解决模式识别分类问题,实际应用广泛。

k近邻法是非数模式识别决策分类方法中最重要的方法之一,它无须估计概率、概密度函数而结合样本特征信息进行决策的模式识别分类方法,如果准备了训练样本,该分类技术根据最近距离给识别模式给予分类,而不进行训练,具有直观、简单、高效等诸多特点。

设:c个类别ω1,ω2,…ωc的模式识别问题,ωi类中有Ni个样本向量xj(i),(i=1,2,…,c;j=1,2…,Ni),训练样本(所有类别)的总数: 。

在定义模式相似性测度后才能划分模式的类别,并通过划分模式类别来表征模式间的相似度。x、y之间的向量差可以度量模式特征向量x、y的相似度,记录该向量差为距离d的欧式范数,即欧式距离:d(x,y)=||x-y||2=||x-y||。该距离具有平移不变性、旋转不变性。

最近邻法之模式识别分类思想为:待识别模式向量假设为x,计算x与各已知类别的样本模式向量xj(i)的距离,把它判决为最短距离的样本所属类别。

由最近邻法的分类思想给出定义ωi类的判断识别函数为:

(1)

判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法研究距离x最近的训练样本的类别来判决x的类别,所以,定义此方法为最近邻法。

如果就单个样本,难免会有偶然性效应,为此,实际操作过程中,可以观察待识别模式向量的k个临近样本,从而总结得出在这k个临近样本中所属样本最多的类别来决策类别,以增加分类的可靠性。设k1,k2,……,kc为x的最近邻的k个样本分别属于ω1,ω2,…ωc类的样本数,即 ;在ωi类中具备Ni个样本训练模式向量xj(i),(i=1,2,…,c;j=1,2…,Ni),训练样本(所有类别)的总数为 。

ωi类的判断识别函数定义为gi(x)=ki,i=1,2,…,;判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法一般称其为k-近邻法。

k-近邻法统计意义上的解释由Cover和Hart给出,研究结果证明:当待识别模式向量x的最近邻k和训练样本总数N和∞,且k/N0时,k-近邻法的分类误识别率与Bayes决策的分类误识别率相等,当样本数量N∞时,k-近邻法性能表现。

当k值小于各类样本的最小值时,k值与算法的稳健性成正比,即k值越大,算法越稳健,如果不具备k值小于各类样本的最小值,近邻就不是样本的局部近邻,有研究指出k取值为 或 。k-近邻法以k值为数,像票决一样,尽可能避免票数相等,难以决策。在N趋于无穷大时,k-近邻法的准确率要明显高于最近邻法。

3基于pca变换和k近邻法的印刷体识别算法设计

主元个数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

识别率 32% 78 86 90 88 86 90 88 86 86 88 90 88 92 92 92

4实验结果及分析

通过PCA变换和k近邻法的印刷体识别算法实验可知,在主元个数在1-4时,识别率成明显上升趋势,主元个数在5-13时,识别率有上下波动的趋势,主元个数大于14后,识别率趋于稳定,且识别率达到92%。

参考文献:

[1]章慎锋,杨淑莹,王厚雪.基于Bayes决策的手写体数字识别[J].天津理工大学学报,2006.

[2]胡合兴.经验模型分解在手写体数字识别中的应用[J].湖南文理学院学报(自然科学版),2005.

[3]唐,刘波,蔡自兴,谢斌.基于二维主成分分析的交通标志牌识别[J].计算机科学,2010.

[4]滕书华,孙即祥,邵晓芳.一种鲁棒性的印刷体数字识别算法[J].光学与光电技术,2005.

作者简介:刘玲丽(1982-),女,江西瑞金人,赣南师范学院物电学院讲师。