基于视频内容的片段分割关键技术探讨(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于视频内容的片段分割关键技术探讨范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：视频分割技术在基于内容的视频编码、视频检索、模式识别等领域应用广泛，成为近年来视频处理技术研究中的热点。系统阐述视频分割技术的应用及常用的算法，并提出另一种基于机器学习、模式识别的方法，将机器学习的思想引入镜头边界检测。此类方法是目前镜头边界检测研究领域中的热点。

关键词：视频分割；视频检索；镜头边界检测

中图分类号：G632 文献标识码：A 文章编号：1671－7597（2012）0210173－02

1 研究视频分割的意义

近年来，随着多媒体技术的发展，视频图像得到了广泛应用，数字视频数量的急剧增长，自动的视频分析技术变得十分有必要，而视频分割技术更是为视频理解、视频编码等领域广泛应用。所谓视频分割就是把视频中重要的或人们感兴趣的物体或对象（Video Object VO）与背景分割开来，或者说就是要划出分别具有一致属性的一个个区域，同时区分背景区域和前景区域。视频图像可以看作一类3-D图像，换句话说，视频图像是由一系列时间上连续的2-D图像组成的。从空间分割的角度看，视频图像分割主要是利用时域信息和空域信息把视频图像中独立运动的区域逐帧检测出来[1]。

视频对象是一个具有一定生存周期的在时间轴上连续的概念，属于包含时间轴在内的三维空间。视频对象在某一帧中的表象称为视频对象平面（Video Object Plane，VOP），具体分割时，到底哪些部分重要，人们对哪些部分感兴趣，要看具体的应用而定。视频图像分割在视频处理中的作用如图1所示：

图1 视频图像分割在视频处理中的作用

视频对象的分割提取是基于对象的视频处理的第一步，也是关键的一步。因而，视频分割技术的研究是非常有意义的。

2 镜头边界检测

镜头，是指由一个摄像机镜头连续拍摄的一组内在相关的连续帧，它用来表现在时空上连续的一组运动，它表示一个完整的动作。我们通过镜头边界检测将视频分为一个个小的视频段，为随后的高层内容分析、分类、索引和查询提供基础，带来应用上的便利例如，它可以避免大量相同或相似的视频图像处理，简化了视频内容分析的复杂度，大大提高了视频处理的效率；另一方面给快捷的视频浏览带来了可能，用户无需浏览视频的全部内容（即线性浏览），而只需通过浏览关键帧图像以及相应的内容分析结果，就可以对视频的整个内容有了概括的了解，从而大大提高了浏览的效率。镜头边界检测的两个主要目标是检测镜头准确率要高、检测速度要快，但目前的各种方法很难做到二者兼得，因此如何在保证高精度的情况下求得快速的检测不但具有极大的理论意义，也具有很高的应用价值。近些年来，很多专家对镜头边缘检测进行了大量的研究工作，镜头分割的主要技术是比较相邻帧对之间的变化，这种变化通常用低层视频特征如像素亮度，颜色直方图，边及压缩域特征来度量[2]。

3 基于相邻帧对之间的变化分割算法

3.1 像素比较法

像素比较法是将两帧对应像素差的绝对值之和作为帧间差，当帧间差大于某个阈值时，认为存在镜头转接，由于像素比较法于像素位置紧密相关，所以对噪声和物体运动非常敏感。

3.2 双阈值法

双阈值法是一种很普遍的做法，它采用两个阈值进行镜头边界检测。首先，用一个低阈值来确定渐变、切边序列的潜在起始帧，并用起始帧与后继帧进行比较，用积累的差值取代帧间差值，直到这个过程终止；然后，将积累差值与一个较大的阈值进行比较，若超出这个阈值就认为这个累加的差值序列对应于一个渐变序列。

3.3 直方图法

直方图法[3]的基本思路是：先把整个颜色空间量化为N个槽，然后统计每个槽内含有的图像像素数，并进行规一化处理，就可以得到图像的颜色直方图，之后两幅图像的差异度就可以通过计算它们的直方图差值求得。

若以表示帧的颜色直方图，表示帧的颜色直方图，那么可以通过多种方法求得帧与间的差值，最常见的是通过下两式来计算：

或

式中i表示N维颜色直方图中的第维分量当大于一个给定的值T时，则认为两帧图像间存在了比较大的差异直方图的方法实际上是一种基于颜色量的统计方法，因此统计的结果中不再含有图像的运动、边缘、形状等信息，因此虽然这种方法对运动等不敏感。

3.4 分块直方图法

分块直方图法是在直方图法的基础上被提出来的直方图的方法，它忽略了颜色的空间位置信息，这也就意味着许多从视觉上感觉并不太相像的图像在直方图中却有可能表现的非常相似为了克服这些不足，加入了分块的思想假设将图像划分为R块，通过计算两幅图像中对应块的特征差值来计算它们的差异因此基于块的帧与间的差值可由下式求得：

式中为第i个块上的权重因子同样当大于一个给定的值T时，则认为两帧图像间存在了比较大的差异基于块的方法考虑了图像间的是局部特征，有利于限制噪声以及运动等带来的影响。

3.5 基于统计的方法

矩是数学统计中常见的一类统计量。一个帧的某些常量（moment invariants）可以体现出该帧的一些性质，例如，拉伸变换尺度、旋转变换尺度、平移变换尺度等f(x,y)的矩以及中心矩的定义如下：

基于统计的方法对于噪声等干扰比较鲁棒，但运算复杂，计算速度慢。

3.6 基于边缘特征的方法

基于边缘特征的方法的基本思路是，如果发生镜头变换，那么前后帧的边缘会有很大变化在检测当前帧中的边缘是否在后一帧中消失时，只需判断在后一帧对应位置的附近是否可以找到与该边缘相匹配的边缘在当前帧中的每个边缘经过如上检测后，后一帧中仍未得到匹配的所有边缘即被认定为新出现的边缘不同的镜头变换对应不同的边缘描述一般用边缘变化率（Edge Change Ratio）来描述边缘变化特性边缘变化率（ECR）的定义：

其中，分别是第n-1帧和第n帧的边缘点总数，是第n帧中新出现的边缘点数目，是第n-1帧后消失的边缘的数目。

3.7 基于压缩域的方法

这类方法直接使用编码时的相关信息，通过比较它们的差异决定是否存在镜头的边界由于整个检测过程都是在压缩域上完成的，因此这类方法的计算速度往往比较快例如，基于DC系数的方法它的思路是，先构造每一帧的DC系数，I帧的DC系数直接通过帧内解码得到，而对于B、P帧，则可以通过I帧的DC系数和它们之间的预测信息估计出来，然后计算这些DC图像之间的差异度来检测镜头的边界，公式表述如下：

其中，表示第M帧的DC图像，表示图像中第i块的DC系数，M为图像内的总块数而基于运动矢量和宏块预测信息的方法，则认为在一个镜头内，相机或物体的运动基本趋于稳定，因此MPEG流中的运动矢量也保留着一定的一致性，通过统计MPEG压缩域中的这些运动矢量信息（如预测时产生的能量差）和预测宏块信息（比如预测方向、预测数量）以检测镜头变化的边界由于P帧，B帧本身就代表了与预测帧之间的差异，因此只要简单地统计这些预测信息即可，以P帧为例，它的预测帧间差异度可以表示为：

其中，表示第i个预测宏块的预测能量差，N为发生的预测宏块数，M为总宏块数。

4 基于机器学习的镜头边界检测算法

在这里我介绍另一种基于机器学习，模式识别的方法，将机器学习的思想引入镜头边界检测[4][5]。此类方法是目前镜头边界检测研究领域中的热点，例如，使用模糊C-means聚类算法检测镜头边界，而无监督聚类算法按照给定的尺度对视频数据进行自组织和动态分析，完成层次化的镜头检测基于模糊聚类神经网络的镜头检测方法采用无监督的模糊竞争学习算法，结合自组织竞争网络，构成一种模糊聚类神经网络，然后基于该网络，通过对由差分灰度帧差和差分直方图帧差组成的线性特征空间进行由粗到细的两步模糊聚类，实现镜头突变的检测应用支撑向量机（Support Vector Machine）技术，在将镜头边缘检测建模为时间多尺度上的变化模式的基础上，将滑动窗口中的帧分类为一般帧，缓变帧，和切变帧，然后对分类的帧进行聚类到不同的镜头基于谱图理论的镜头分割，采用一定时间窗内帧对之间的互信息来建立图，其中图的节点是帧，图的边的权重由帧对之间的相似度决定基于建立的图，应用图分割来进行镜头边缘检测。

结合现有的镜头边界检测理论，同时兼顾工程应用中的需求和效率要求，我们使用基于直方图的方法作镜头分割，目的是检测出视频当中所有的切变镜头边界，不考虑缓变镜头边界，算法的输入为一段视频的帧序列，输出为各个镜头起止帧号。

镜头边界检测比较每两帧之间的差别当差别超过阈值时判定为镜头边界，由于不考虑缓变镜头边界，所以不计算累加的帧间差值阈值的计算是根据计算得到的帧间差计算得出的整个过程首先是抓帧每得到一帧即获得一组数据，即按照bmp格式顺序编排的一帧图象的RGB数据然后对数据进行颜色空间变换，由RGB变换至HSV颜色空间，然后统计HSV颜色空间中每一帧的直方图，具体计算如下：

上式得到的H、S、V为各分量在相应直方图中的位置得到视频中所有帧的直方图后，计算相隔两帧之间的直方图差，计算直方图差使用的公式是相应bin相减的差值绝对值之和：

公式中bin1，bin2，bin3分别代表H、S、V分量在独立直方图中所占的bin数，其中bin1=12，bin2=8，bin3=10H、hisi(j)是指第i帧的第j个bin值his_differi是指第i帧和第i+1帧的直方图差由于视频当中所有帧图像的大小是一致的，所以没有必要在计算直方图差时进行归一化得到直方图差序列后计算直方图差序列的均值与标准差：

其中n是视频帧数，则共有n-1个直方图差，计算得到mean与std之后用这两个参数计算切变镜头边界的阈值：为参数，用以调节阈值的高低得到阈值t之后，将直方图差序列当中的各个值his_differi与t比较，当his_differi>t，而且当镜头长度大于5帧时，判定为一个切变镜头边界，当镜头长度小于5帧时不判定为边界，以免在缓变过程当中出现大量的小镜头，影响检测效果。

5 结束语

视频对象分割技术有非常广泛的应用领域和巨大的实用价值。它在视频对象操纵和编辑、视频数据库检索、视频监控、视频场景理解等应用领域发挥着重要的作用。镜头边界检测SBD（Shot Boundary Detection）技术作为视频分割整个过程的关键技术，但至今还没有提出一种通用的视频分割算法来解决所有的视频分割问题，现有的算法都是针对某一应用而提出来的。如何提高算法的通用性，降低算法的复杂度是设计算法时考虑的主要方面。

参考文献：

[1]李向伟、李战明、张明新、邢敬宏、魏伟一，基于内容的视频镜头检测技术，电视技术，2008（03）．

[2]常成，视频检索中的边界检测算法，信息技术，2007（11）．

[3]谢明华，基于二维图像分割的视频镜头边界检测，2006．

[4]王贝、杨林军、路红、薛向阳，基于流形特征的镜头边界检测后处理算法，计算机研究与发展，2006（11）.

[5]陈剑峰、陆伟、安然，面向互动电视的关键技术探讨，计算机应用与软件．

作者简介：

陈伟（1985-），男，江苏省盐城人，上海交通大学电子信息与电气工程学院2010级电子与通信工程工程硕士研究生，研究方向：电子与通信工程，数字图像处理，数字电视播控技术。

基于视频内容的片段分割关键技术探讨

优秀范文

精选范文