首页 > 范文大全 > 正文

基于边缘检测的视频字幕自动定位方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于边缘检测的视频字幕自动定位方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘 要]视频中的字幕蕴含丰富的语义信息,字幕检测方法对视频检索就尤为重要。因此,提出了一种高效率的方法对视频中的字幕完成自动检测与定位。对输入的图像进行锐化预处理,突出字幕区域的信息,求取经锐化处理后图像的最佳分割阀值,结合最佳分割阀值进行边缘检测得到二值图,很好的分离了字幕区域与背景区域。运用形态学处理使文字连接成块,最后依据文字的先验特征去除干扰区域。实验证明,该方法复杂程度低,能准确的定位字幕区域。

[关键词]视频字幕;字幕检测;边缘检测;数学形态学;

中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2014)41-0139-01

随着多媒体技术在互联网上的高速发展,视频在人们的日常生活中己经成为不可或缺的一部分。迫切地需要一种有效的方法对视频进行管理、索引和检索。由于这种需求,基于图像、声音等各种视频信息检索的方法被大量提出,其中,视频中的字幕信息对于视频的检索有着十分重要的意义。

本文针对运用边缘算法提取视频字幕生成二值图像时,需要设定经验阈值,通用性差的缺点,提出一种结合图像预处理及最佳阀值分割的视频字幕检测算法。

1 字幕区域提取方法描述

1.1 字幕提取流程

为了便于人眼识别,视频中后期制作加入的文字一般具有下述特性:文字颜色与背景有较大差别,具有比较丰富的边缘信息;文字均具有一定规格尺寸;文字的分布比较集中且多为水平方向排列;任意一个文字区域都包含多个文字。

正是基于以上特征,本研究设计了一种方法来检测视频中的文本区域,步骤如下:

(1)输入彩色图像,做灰度化处理;(2)使用二阶拉普拉斯算子做锐化处理;(3)用最小误差法求图像的分割阀值T;(4)用sobel算子结合阀值T做边缘检测;(5)将边缘图用数学形态学连通为区域;(6)文字区域进行粗筛选;(7) 文字区域进行细筛选,确定文字区域;

1.2 输入图像的预处理

在处理彩色图像前先把彩色图像转化为灰度图像,一般常用的有R、G、B三色等权和不等权两种变换,本方法采用不等权策略。

由于拉普拉斯算子是微分操作符,对输入的灰度图像滤波,可以突出灰度值快速变化的区域,可以使图像锐化。

对于文字提取来说,边缘图像的二值化至关重要。阀值过大,会减少文字的边缘信息。阀值过小,会使保留较多的非文字边缘,使误检增多。本文采用最小误差法求阈值。求得增强后图像?(x,y)的最佳分割阈值为T。

本文使用sobel边缘检测算子。Sobel算子两个模板组成,分别用来检测图像中的垂直边缘和水平边缘。将两个模板与图像卷积得到的最大值作为该点的边缘响应值输出。得到图像的边缘图,与图像的最佳分割阈值T比较,大于T的点赋值逻辑值1输出,小于T的点赋值0输出,最后生成二值图像。

1.3 形态学处理

形态学是一种非线性信号处理和分析的工具,应用在图像上,它可将图像信号与其几何形状联系起来,利用一定形态的结构元素度量和提取图像中的对应形状和结构,可以简化图像。基本概念是腐蚀、膨胀、开、闭运算。

本文中使用五次闭运算,两次开运算,三次膨胀运算可有效的将边缘图像连接成候选的连通区域。

1.4 字幕区域粗筛选

在经过形态学处理后,在通过文字区域的启发性规则就能剔除虚假的文本区域,得到精确的文本区域。其中主要用到字幕区域的宽度、面积、中心、宽高比、饱和度[7]。

宽度:为了清晰显示,提出的高度标准是边界窗的高度必须高于10个像素。

面积:字幕连通域的面积大于一个经验阈值150。

中心:连通域最小外接矩形的中心。中心大于二分之一倍宽度。

宽高比:最小外接矩形宽度和高度的比例,宽高比大于1而小于50。

饱和度:连通域内已填充像素数占最小外接矩形的比例。设置饱和度阈值为0.4.

1.5 字幕区域细筛选

根据字幕的先验知识,能排除掉大部分虚假连通域,但仍会有少量的连通域误检出来。为进一步提高准确率。设计如下思路:将检测出的连通域的位置信息映射回二值图像,对二值图相应位置进行水平方向投影,因为字幕通常由水平的几个字符组成,边缘信息比其他区域丰富,选取出水平投影均值最大的默认为字幕区。非字幕区零散且无规律,对未达到默认字幕区的50%的其他区域予以排除。最后得到满足条件的连通域的位置信息,映射回到原图上。

2 结束语

通过大量的实验,证明本方法的普适性和鲁棒性,为解决一般边缘检测方法效率低,提出一种先对图像做锐化预处理,突出字幕区域信息的方法。在用sobel算子对图像做边缘检测时,解决了需要人为设定经验阀值生成二值图像的问题。以最小误差法求取的值作为边缘图二值化的阈值,可以分离出字幕区与背景区域。运用数学形态学使文字区域连通为块,根据文字的先验规则去排除非字幕区。

参考文献

[1] 蔡波,周洞汝,胡宏斌.数字视频字幕检测及提取的研究和实现[J].计算机辅助设计与图形学学报,2003(7):898-903.

[2] 万罡,周洞汝,崔永毅等.数字视频中文字分割算法的研究[J].计算机工程与应用,2003,39(2):103-105.

[3] 庄越挺,刘骏伟,吴飞等.基于支持向量机的视频字幕自动定位与提取[J].计算机辅助设计与图形学学报,2002,14(s): 750-753.

[4] 李江川,李尧.视频字幕检测的新方法[J].控制工程,2011,S1:30-33+130.