首页 > 范文大全 > 正文

纸质文档数据防泄与追溯中文本图像倾斜校正方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇纸质文档数据防泄与追溯中文本图像倾斜校正方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要 文本图像倾斜角估计和校正是纸质文档数据防泄与追溯关注的热点技g之一。为快速实现倾斜校正,基于行与列投影与分析,本文提出了一种新的倾斜角度计算方法。这种方法通过再次旋转待校正图像,分析两次图像有效区域各成分几何关系,以直接计算倾斜角。实验结果表明:新方法降低了计算复杂度,提高了倾斜角计算速度,获得了较好地纠正效果。

【关键词】信息安全 倾斜校正 倾斜角估计

目前,纸质文档据防泄与追溯问题仍有诸多问题亟需解决。在纸质文本图像信息隐藏与提取研究中,电子化或数字化的文本,首先经过虚拟打印机转化成数字图像,然后利用自动文本识别技术分析图像中各成分,包括图像,表格,文字;然后将需要隐藏的信息,“嵌入”到数字化文本图像中。基于此,后续若有人未经授权扫描或偷拍纸质已经上述处理的文件。则可通过扫描纸质文件,而后对该文本图像进行图像自动识别处理,提取隐藏信息,达到纸质文档数据防泄和追溯目的。从上述文本信息隐藏与提取步骤,可看出文字自动识别问题至关重要。需要指出的是,在信息隐藏时, 考虑到需要将纸质文件转换为文本图像,即文档的数字化,在此过程中,受到机械操作和人为因素影响,不可避免地造成文本图像的倾斜,对后续的文本图像的分析,如页面分割,字符识别以及信息隐藏操作产生极大的影响。因此,文本图像倾斜检测和校正是纸质文档数据防泄与追溯中一个必不可少的技术环节。

目前,大致可分为四类:变换域法,直线拟合法,目标函数优化法以及投影特征分析法。变换域法主要包括Hough变换法与Fourier 变换法。前者是在变换域提取直线以实现倾斜校正;后者是在傅里叶域提取密度最大的方向角特性。直线拟合法主要包括特征点最小距离拟合法与最近邻簇法。目标函数优化法主要是交叉相关法。投影特征分析法是倾斜校正中常见方法,其思想是对文档图像在不同角度投影,产生投影图,在此基础上统计某些特征特,进而求得文本倾斜角,实现文本图像纠正。目前该类方法计算量仍相对较大。本文基于投影法,通过分析不同旋转角度文本图像间关系,获得倾斜角度,提出了一种快速倾斜校正方法

1 基本思想与步骤

图像倾斜校正之前,要对输入图像进行简单处理,主要是对图像进行二值化操作。而后,对图像进行有效区域提取,具体提出文本图像周围空白区域,以便后续处理,快速高效,总体提高倾斜角度检测速度。接着,对图像有效区域再列投影,通过获得的谱图支撑域计算有效区域投影宽度。再次,通过行投影计算有效区域的高度。示意图见图1。

完成上述操作后,再次地,将有效区域再进行一定角度的旋转(旋转的角度和方向可以任意选择)。再次旋转后,同样进行连续进行列投影和行投影处理,得到新的有效区域的投影宽度和投影高度。示意图见图2。通过再旋转,考察两组图中有效区域中各成分几何关系,可得到倾斜角,而后校正倾斜图像。

2 具体实现与结果

进而校正倾斜图像。图2给出了实验结果。由图2可以看出,本文提出的方法能较好的实现倾斜图像校正。

3 总结

提出了一个联合投影与旋转操作的的倾斜角估计方法。 该方法的首先利用行与列方向投影,得到有效区域,然后统计有效区域的长与宽;然后旋转某一角度,再次行与列投影,获得旋转后的有效区域。两次投影得到两参数,并利用两组有效区域各成分几何关系,联立求斜角度。该方法克服了其它投影方法过度旋转而引入较大误差的问题。

参考文献

[1]潘矗吴一全.二维指数熵图像阈值选取方法及其快速算法[J].计算机应用,2007,27(04):982-985.

[2]张晓芸,朱庆生,曾令秋.基于直线拟合的文本倾斜检测算法[J].计算机应用研究,2005,22(06):251-253.

[3]Yan H.Skew correction of document images using inner line cross-correlation[J].Computer Vision,Graphics and Image Process2ing:Graphical Models and Image Processing,1993,55(06):538-543.

[4]瞿洋,杨利平.Hough变换OCR图象倾斜矫正方法[J].中国图象图形学报,2001,6(02):178-181.

[5]周冠玮,平西建,程娟.基于改进Hough 变换的文本图像倾斜校正方法[J].计算机应用,2007,27(07):52-57.

作者单位

中国电子科技集团公司第二十八研究所 江苏省南京市 210007