首页 > 文章中心 > 计算机视觉常用技术

计算机视觉常用技术

开篇:润墨网以专业的文秘视角,为您筛选了八篇计算机视觉常用技术范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

计算机视觉常用技术范文第1篇

关键词:计算机;视觉技术;交通工程

中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2014) 04-0000-01

一、引言

随着科技的发展,计算机替代人的视觉与思维已经成为现实,这也是计算机视觉的突出显现。那么在物体图像中识别物体并作进一步处理,是客观世界的主观反应。在数字化图像中,我们可以探寻出较为固定的数字联系,在物体特征搜集并处理时做到二次实现。这既是对物体特征的外在显现与描绘,更是对其定量信息的标定。从交通工程领域的角度来看,该种技术一般应用在交管及安全方面。监控交通流、识别车况及高速收费都是属于交通管理的范畴;而对交通重大事件的勘察及甄别则是交通安全所属。在这个基础上,笔者对计算机视觉系统的组成及原理进行了分析,并形成视觉处理相关技术研究。

二、设计计算机视觉系统构成

计算机视觉处理技术的应用是建立在视觉系统的建立基础上的。其内部主要的构成是计算机光源、光电转换相关器件及图像采集卡等元件。

(一)照明条件的设计。在测量物体的表征时,环境的创设是图像分析处理的前提,其主要通过光线反射将影像投射到光电传感器上。故而要想获得清晰图像离不开照明条件的选择。在设计照明条件时,我们通常会视具体而不同处理,不过总的目标是一定的,那就是要利于处理图像及对其进行提取分析。在照明条件的设定中,主动视觉系统结构光是较为典型的范例。

(二)数据采集的处理。如今电耦合器件(CCD)中,摄像机及光电传感器较为常见。它们输出形成的影像均为模拟化的电子信号。在此基础上,A模式与D模式的相互对接更能够让信号进入计算机并达到数字处理标准,最后再量化入计算机系统处理范围。客观物体色彩的不同,也就造就了色彩带给人信息的差异。一般地黑白图像是单色摄像机输入的结果;彩色图像则需要彩色相机来实现。其过程为:彩色模拟信号解码为RGB单独信号,并单独A/D转换,输出后借助色彩查找表来显示相应色彩。每幅图像一旦经过数字处理就会形成点阵,并将n个信息浓缩于每点中。彩色获得的图像在16比特,而黑白所获黑白灰图像则仅有8比特。故而从信息采集量上来看,彩色的图像采集分析更为繁复些。不过黑白跟灰度图像也基本适应于基础信息的特征分析。相机数量及研究技法的角度,则有三个分类:“单目视觉”、“双目”及“三目”立体视觉。

三、研究与应用计算机视觉处理技术

从对图像进行编辑的过程可以看出,计算机视觉处理技术在物体成像及计算后会在灰度阵列中参杂无效信息群,使得信息存在遗失风险。成像的噪声在一定程度上也对获取有效信息造成了干扰。故而,处理图像必须要有前提地预设分析,还原图像本相,从而消去噪音。边缘增强在特定的图像变化程度中,其起到的是对特征方法的削减。基于二值化,分割图像才能够进一步开展。对于物体的检测多借助某个范围来达到目的。识别和测算物体一般总是靠对特征的甄别来完成的。

四、分析处理三维物体技术

物体外轮扩线及表面对应位置的限定下,物体性质的外在表现则是其形状。三维物体从内含性质上来看也有体现,如通过其内含性质所变现出来的表层构造及边界划定等等。故而在确定图像特征方面,物体的三维形态是最常用的处理技术。检测三维物体形状及分析距离从计算机视觉技术角度来看,渠道很多,其原理主要是借助光源特性在图像输入时的显现来实现的。其类别有主动与被动两类。借助自然光照来对图像获取并挖掘深入信息的技术叫做被动测距;主动测距的光源条件则是利用人为设置的,其信息也是图像在经过测算分析时得到的。被动测距的主要用途体现在军工业保密及限制环境中,而普通建筑行业则主要利用主动测距。特别是较小尺寸物体的测算,以及拥有抗干扰及其他非接触测距环境。

(一)主动测距技术。主动测距,主要是指光源条件是在人为创设环境中满足的,且从景物外像得到相关点化信息,可以适当显示图像大概并进行初步分析处理,以对计算适应功率及信息测算程度形成水平提高。从技术种类上说,主动测距技术可分为雷达取像、几何光学聚焦、图像干扰及衍射等。除了结构光法外的测量方法均为基于物理成像,并搜集所成图像,并得到特殊物理特征图像。从不同的研究环境到条件所涉,以结构光法测量作为主要技术的工程需求较为普遍,其原理为:首先在光源的设计上由人为来进行环境考虑测算,再从其中获取较为全面的离散点化信息。在离散处理后,此类图像已经形成了较多的物体真是特征表象。在此基础上,信息需要不断简化与甄别、压缩。如果分析整个物体特征信息链,则后期主要体现在对于数据的简化分析。如今人们已经把研究的目光转向了结构光测量方法的应用,体现在物体形状检测等方面。

(二)被动测距技术。被动测距,对光照条件的选择具有局限性,其主要通过对于自然光的覆盖得以实现。它在图像原始信息处理及分析匹配方面技术指向较为突出。也通过此三维物体之形状及周围环境深度均被显露。在图像原始信息基础上的应用计算,其与结构光等相比繁杂程度较高。分析物体三维特性,着重从立体视觉内涵入手,适应物体自身特点而存在。不过相对来说获得图像特征才是其适应匹配的条件保障。点、线、区域及结构纹理等是物象特征的主体形式。其中物特较为基础与原始的特征是前两个特征,同时它们也是其他相关表征的前提。计算机系统技术测量基本原理为对摄像机进行构建分析,并对其图像表征进行特征匹配,以得到图像不同区间的视觉差异。

五、结束语

通过对计算机视觉技术的研究,悉知其主要的应用领域及技术组成。在系统使用的基础上深入设计,对系统主要构成环节进行分析。从而将三维复杂形态原理、算法及测量理论上升到实际应用。随着社会对于计算机的倚赖程度增加,相信该技术在建筑或者其他领域会有更加深入的研究及应用。

参考文献:

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2012(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2011(04).

计算机视觉常用技术范文第2篇

关键词:三目摄像机;标定;立体视觉;外部参数

一、绪论

1.1研究的背景及意义

计算机视觉是当今极为重要的学科之一,它在具有很强的挑战性的同时又拥有广泛的应用前景和实用价值。计算机视觉以视觉理论为中心,以图像处理、模式识别、计算机技术和生理学、心理学为基础,研究内容主要有两个方面:一是开发从输入图像数据自动构造场景描述的图像处理系统;二是理解人类视觉机理,用机器代替人去做人类难以达到或根本无法达到的工作[1]。

计算机视觉应用的广泛性体现在其不仅用于文字、指纹、面部、商标以及图像数据库、检测集成电路芯片、多媒体技术这些图像方面,还应用到机器人导航、工业检测和产品的自动装配、CT图像器官重建和遥感照片解释等空间物体的定位、识别以及重建上。现如今,计算机视觉已经应用到机器人、地理、医学、物理、化学、天文等各大的研究领域。

作为多个学科交叉与融合中心的计算机视觉,摄像机是其研究的重要工具,而摄像机标定又是计算机视觉研究的一个关键问题,故摄像机的标定越来越受到广泛的重视。摄像机标定是通过物体空间上的点与图像中的对应点的几何关系,来确定摄像机的内外参数的过程。标定结果是否准确影响着三维测量的精度和三维重建的结果,而且实时的标定更能满足自动导航机器视觉的需要[2]。

伴随着应用的发展,摄像机广泛地被应用于三维立体的测量、视觉检测、运动检测等领域。由此,对摄像机标定的精度要求也日益增加。摄像机标定结果的优劣影响了计算机视觉在各领域的应用。摄像机标定的准确与否,对能否提高计算机视觉在各领域测量的准确度有重要影响[3]。因此,研究摄像机标定方法具有重要的理论研究意义和实际应用价值。

1.2摄像机标定技术研究的发展及现状

摄像机有一个图像平面和提供三维空间到图像平面转换的镜头。由于镜头会产生畸变,不能把这个转化过程简单描述为投射变换。所以它表示的是畸变的模型,这些模型近似于真实数据,而其精确性则依靠于建立的模型及模型参数的准确性。

首先进行摄像机标定工作的是加拿大的Deville,他于1910年建立实验室,使用多个瞄准仪对他的“测量摄像机”(surveying camera)进行标定[4]。上个世纪三十年代后期,美国标准局发明了一种精确镜头,用来检测摄像机,同时将它用在摄像机标定上。四十年代后期,该项工作得到进一步加深,有了更多对高精度的需求和对易操作设备的需求。1955年,Carman出版了 《棋盘平面度的干涉测量和控制》,该书引起了社会各界对摄像机标定的关注。二战时期,随着飞机的大规模使用,航空摄影与制图兴起,为得到更加精确的测量结果,对摄像机镜头的校正要求也变得更高。五十到七十年代也是镜头校正技术发展最为迅速的时间段。在这期间,各种镜头像差的表达式逐步被提出并且得到普遍认同与采用,建立了很多的镜头像差的模型,D.C.Brown等人作出了比较大的贡献,他们导出了近焦距情况下给定位置处径向畸变表达式并证明了近焦距情况下测量出镜头两个位置的径向畸变就可以求出任何位置的径向畸变[5]。这些径向与切向像差表达式成为后来各摄像机的标定非线性模型的基础。这段时间里,研究的重点是如何校正镜头与用何种方法补偿镜头像差,这些研究对促进各性能镜头组的研制起到了重要作用。在1999年,张正友提出了一种简便的摄像机标定方法,该方法介于传统标定和自标定之间,操作方便灵活,能够得到不错的精度,满足了众多拥有桌面视觉系统的用户在摄像机标定方面的需求。

1.3本文的主要研究内容

本文的主要研究多个摄像机的标定问题。标定主要是对摄像机内外参的测量计算,利用这些参数对多个摄像机识别的物体尺寸进行衡量并建立起多摄像机系统的数字环境。

论文的内容包括:

第一章为绪论,介绍摄像机标定相关的研究背景、国内外研究现状。

第二章为摄像机标定理论基础:主要介绍标定的坐标系与待标定的参数。

第三章提出本文的多摄像机标定方法与实验过程。

第四章进行全文的总结。

二、摄像机标定方法研究

2.1摄像机标定原理

摄像机通过透镜将三维物体投影到--维图像平面上,这个成像变换的过程称为摄像机成像模型。摄像机成像模型有多种,最常用的为小孔成像模型。由于实际的摄像机镜头会发生一定的畸变,使得空间点所成的像不在线性模型描述的位置而会发生一定的偏移,为了能准确的标定摄像机参数,标定的过程中要考虑非线性畸变因子。

一般来说,得到标定结果后要对其精度进行评估,然而很难得到准确的摄像机标定参数真值作为参考,其中基于图像坐标和世界坐标的绝对和相对误差的评价方法应用广泛,本文将对这些方法的原理进行探讨。

2.2摄像机标定坐标系建立

首先定义了四个坐标系,如图1所示,图像坐标系的坐标原点为O0,列与行由坐标轴u和v表示;成像平面坐标系的原点是摄像机光轴与图像坐标系的交点0l,x、y 轴分别与u、v 轴平行;在摄像机坐标系中,坐标原点0c即为在摄像机的光心,Xc、Yc轴与x、y 轴平行,与图像平面垂直是摄像机光轴作为Zc轴,0c0l为摄像机焦距f;世界坐标系是假想的参考坐标系,可固定于场景中某物体上,用于描述摄像机的位置,由Xw,Yw,Zw轴组成。

图(1)

2.3摄像机外部参数构成

主动视觉传感器从在笛卡尔直角坐标系中的运动表现为相应的旋转矩阵和平移矩阵,故摄像机外部参数表现为旋转矩阵R和平移矩阵T,则摄像机坐标系与世界坐标系的转化关系可以表示成:

上式中(Xc,Yc,Zc)表示空间点在摄像机坐标系下的坐标,(Xw,Yw,Zw)表示空间点在世界坐标系下的坐标。根据靶标点在像空间坐标系和物方空间坐标系中的坐标,通过分解旋转矩阵线性计算像空间坐标系与物方空间坐标之间的转换参数,即外方位元素(摄站参数)[6]。

2.4各摄像机相对位置确定

三目摄像机拥有三个视觉传感器,而三个传感器之间的相对位置可通过已获得的外部参数进行确定。将三个摄像机坐标系设置为,Oci xci yci zci(i=1,2,3),由2.3中所介绍的内容可知,这三个摄像机坐标系与世界坐标系的关系为:

i=(1,2,3)

由此我们可以得到任意两个摄像机i,j的坐标系转换关系:

其中: = = i,j=1,2,3

三、摄像机标定实验过程及结果

3.1实验系统介绍

实验中被用来标定的是一个多摄像机系统,摄像机标定有关的基本参数、系统组成和开发环境如下:

(1)硬件环境

标定板、三目摄像机和图像采集卡等。

(2)软件环境

OpenCV开源视觉库,它仅由一系列C函数和少量C++类构成,为Python、MATLAB等语言提供了接口,在图像处理和计算机视觉方面实现了很多通用算法。

3.2实验过程

本系统以棋盘格模板作为标定模板。采用激光打印机打印棋盘格黑白方块间隔纸,方块边长为3cm,共6行9列,将打印纸固定在一块平板上,作为标定模板,如图(2)。安装三目摄像机系统,调节固定好个摄像机位置,如图(3)。手持标定板在三目摄像机前方各个位置拍摄5组共15张各姿态的照片,利用Canny算子进行像点灰度中心提取、同名像点匹配并解算出三个摄像机在标定板坐标系中的外部参数值。

3.3标定结果

摄像机1:

R= T=

摄像机2:

R= T=

摄像机3:

R= T=

四、总结

随着计算机技术的高速发展,计算机视觉成为当今热门的研究课题,受到了广泛关注。本文就如何在机器视觉的理论基础上对三目视觉系统进行标定进行了研究,讨论了计算机视觉理论知识,分析摄像机标定原理以及标定坐标系的建立。同时通过计算机视觉知识的分析讨论了基于三目视觉系统的摄像机标定技术,完成了三目视觉系统的外部参数标定实验。三目摄像机测量系统外部参数的标定能够解决测量作业现场、测量控制场建立难的问题,为快速地建立简单实用的控制场提供了方案,有一定的实用价值。

参考文献

[1] 荆丽秋.双目视觉系统标定与匹配的研究与实现[D].哈尔滨工程大学,2009.DOI:10.7666/d.y1489086.

[2] 马颂德.计算机视觉―计算理论与算法基础[M].北京:科学出版社,1998.

[3] 王荣一.摄像机标定及关键技术研究[D].哈尔滨理工大学,2011.DOI:10.7666/d.y2012483.

[4] Clarke T A,Fryer J G.The development of camera calibration methods andmodels.Photogrammetric Record,1998,16(91):51-66

[5] Brown D C.Decentering distortion of lenses.Photogrammetric Engineering,1 966,32(3):444-462.

[6] 范亚兵,黄桂平,高宝华等.三目立体工业摄影测量系统外部参数的快速标定[J].测绘工程,2012,21(5):48-52.DOI:10.3969/j.issn.1006-7949 .2012.05.013

计算机视觉常用技术范文第3篇

关键词:OpenCV;手势识别;模式识别;图像处理

中图分类号:TP368 文献标识码:B 文章编号:2095-1302(2015)06-00-03

0 引 言

随着科技的日益进步,传统的、基于键盘鼠标的人机交互方式略显单调。各国的研究者们探索着一个又一个新的人机交互方式,而在这些方式中,基于图像理解的方式已经取得了很大的进展。我们的生活离不开肢体动作,而图像方式是计算机能够理解人类动作最直接的方式。图像处理的研究内容非常广泛,配合统计、模式识别等学科知识的应用,我们已经能够识别并理解常用的人类肢体动作。

在肢体动作中,手势动作又是其中的重点。如今很多新的交互方式都建立在手势识别理解的基础上,例如:Microsoft的kinect系统,primesense的生物识别系统等。很多公司已经将其应用到了医疗、教育教学、失语者手势理解等领域。因此,研究手势识别理解将会是未来计算机领域的一大热点。

运动识别系统的进步伴随着数字图像处理领域的进步,各国学者相继开发出了大量优秀的计算机视觉和图像处理软件包。大多数软件包基于计算速度的考虑采用C/C++ 编写[1]。虽然这些软件包对计算机图像处理和计算机视觉的研究提供了很大地便利,但也存在着不足之处[2]:

(1)现行的多数图像处理平台没有提供高级数学函数;

(2)Matlab 的运行速度需要提高并且对宿主机器的配置要求较高;

(3)绝大多数图像处理库不支持嵌入式程序开发。

开源计算机视觉库OpenCV(Open Source Computer Vision Library)的出现极大地弥补了这些不足,给开发者提供了强大的综合开发平台。

1 OpenCV简介

OpenCV(Open Source Computer Vision Library)诞生于Intel 研究中心,是一个开放源代码的、高质量的计算机视觉库。它轻量且高效,采用C/C++ 语言编写,可以运行在Linux/Windows/Mac等操作系统上。OpenCV 还提供了Python、Ruby、Matlab及其他语言的接口[3]。OpenCV中包含了大量经典的计算机视觉处理函数,这些函数涵盖了机器视觉领域的大多数应用。OpenCV提供的视觉处理算法非常丰富,利用其开源特性,只要开发者处理得当,不需要添加新的外部支持也可以支持完整的编译链接生成执行程序。

OpenCV 现行版本为2.4.11.0,已放出了3.0.0的Beta版本。现行版本的OpenCV分为18个模块,其中常用的有8个模块:

(1)Core:定义基本的数据结构,包括矩阵和被其他模块使用的公共函数;

(2)Imgproc:包含线性和非线性图像过滤器、几何图形变化、色彩空间变化等功能;

(3)Video:包含运动分析、背景剪切和对象追踪等功能;

(4)Calib3d:包含多视角集合算法、3D重建等功能;

(5)Features2d:包含特征匹配等功能;

(6)Objdetect:包含预定义对象距离探测等功能;

(7)Highui:包含一个简单易用的高层级接口,用以抽象不同操作系统对视频提取和图像操作的功能;

(8)GPU:包含GPU加速相关的算法,这些算法可以被其他模块使用以加速程序的运转。

2 手势识别简介

根据计算机系统检测手势姿态的传感器的不同,我们可以将手势识别理解系统分为两类:一是利用数据手套获相关技术;二是利用计算机视觉捕获和处理图像流。利用数据手套捕获技术实现的手势识别系统使用不方便,用户需要学习的内容多且使用场景受到限制,而且成本较高[4]。而基于计算机视觉的手势识别系统则具有使用场景广阔、使用习惯符合人体本能、传感器成本低、普及率高等优势。

基于图像的手势识别系统一般可分为手势姿态图像采集、手势姿态图像分割、手势姿态特征提取及手势姿态识别四个步骤[5]。

在大量手势识别系统的实际开发过程中,都牵扯到使用肤色过滤系统来分割获取手势的binary图像。手势姿态的binary图像的获取关系到后期手势姿态理解的稳定性和准确性,但是人体的手部颜色受到个体差异、光源颜色以及光照角度的影响,其中任何一个因素变化都将造成阴影、遮蔽等不良影响[6]。手势识别的方法主要有4种,具体见表1。

表1 手势识别方法静态识别[7] 动态识别[8]

模板匹配法(TM) 动态时间规整法(DTW)

神经网络法(NN) 隐马尔可夫模型法(HMM)

本文首先使用YCrCb肤色分割算法在使用者在线模式下提取使用者手势姿态30组,利用30组手势姿态的均值测量出使用者手部的色彩平均值;然后提取环境光照的平均值、极大值和极小值,利用环境关照的取值和手部均值做运算,特定区域内找点最少的环境光照值和手部均值,最后利用这两个值进行手势姿态图像binary处理。将得到的binary图像进行特征化处理,得到手部特征点,通过对特征点的运算,得到最终的手势姿态理解。

3 手势姿态的binary处理

手势姿态的binary处理核心代码如下:

主函数:

frame = cvQueryFrame(capture);

//读取一帧图像

//cvShowImage( “Main_cam” , frame);

if( !frame ) break;

assert( 0 ==

binary_image_process( frame , mask , high_threshold1 , high_threshold2 , high_threshold3 , &is_get_binary )

);

cvShowImage( “Binary_cam” , mask );

//binary_image_process函数,使用环境光和肤色在线测量均值得到的三个阈值:threshold1,threshold2,threshold3,分别对应YCrCb颜色空间的Y,CR,CB通道:

IplImage* ycrcb = cvCreateImage( cvGetSize(frame) , 8 , 3 );

cvCvtColor( frame , ycrcb , CV_BGR2YCrCb );

for(int i=0 ; i < ycrcb->height ; i++ ) //二值化

{

uchar *row = (uchar *)(ycrcb->imageData) + i * ycrcb->widthStep;

for(int j=0 ; j < ycrcb->width ; j++ )

{

uchar *p = row + 3*j ;

//if( *(p+1) > threshold2 && *(p+2) < threshold3 )//||

if( *(p) < threshold1 )

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 255; // 白色

}

else

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 0; // 黑色

}

}

}

IplConvKernel *element = cvCreateStructuringElementEx( 4 , 4 , 0 , 0 , CV_SHAPE_RECT );//创建用于腐蚀的核函数

cvErode( binary_image , binary_image , element , 1); // Erotion

cvDilate( binary_image , binary_image , NULL , 1); // Dilation

cvReleaseStructuringElement( &element );

cvReleaseImage( &ycrcb );

经过提取的手势识别binary图形如图1(a)~(e)所示。

可见此方法提取的binary图像清晰准确,具有利用价值,可以为后期的特征提取与识别创造有利条件。

(a) (b)

(c) (d)

(e)

图1 手势识别binary图形

4 手势姿态特征的识别与理解

首先,我们通过对最小包络圆和手腕的计算得出手掌心的位置,然后利用每个点与相邻点做向量外积计算是否为手指尖点和手缝点,最后即可得出手势姿态的全部特征点。

//计算整个轮廓的中心点

for( int i=0 ; i < real_contours_number ; i++ ){

contour_rectangle = cvMinAreaRect2( sort_contours[i] , 0 );

arm_center[i].x = cvRound( contour_rectangle.center.x );

arm_center[i].y = cvRound( contour_rectangle.center.y );

cvCircle( frame , arm_center[i] , 10 , CV_RGB(255,255,255) , -1 , 8 , 0 );

}

//取得凸包,画出指缝

for( int i=0 ; i < real_contours_number ; i++ ){ get_convex_hull( i );

finger_tip( i );

hand( i );

cvClearSeq( hull ); //清空凸包序列

cvClearSeq( defect );

}

最终,得到的含有全部手势特征点的图像如图2(a) 、图2(b)所示。

(a) (b)

图2 含有全部手势特征点的图像

5 结 语

新版本的OpenCV计算机视觉库给我们提供了很强大的计算机视觉处理能力,利用其提供的高级别函数和矩阵运算能力,开发者们可以开发出大量基于图像的应用。利用OpenCV强大的可移植能力,开发者可以使用相应的移植工具将PC平台上的成果转化到移动端,这将会为开发者创造新的机会。

参考文献

[1]喻擎苍, 翁秀娟, 赵匀,等.交互式开放结构计算机视觉平台[J]. 计算机工程与应用,2006,42(23):78-81.

[2]秦小文, 温志芳, 乔维维. 基于OpenCV的图像处理[J]. 电子测试, 2011(7):39-41.

[3]于仕琪, 刘瑞祯. 学习OpenCV( 中文版)[M]. 北京:清华大学出版社,2009.

[4] LEE C, XU Y. Online interactive learning of gestures for human /robot interfaces [C] Proceedings of the 1996 IEEE International Conference on Robotics and Automation. Washington,DC: IEEE Computer Society Press,1996,4: 2982-2987.

[5]赵健, 张冬泉. 基于OpenCV的数字手势识别算法[J]. 计算机应用, 2013, 33(z2):193-196.

[6] SURAL S,QIAN G,PRAMANIK S.Segmentation and histogram generation using the HSV color space for image retrieval[C] of the 2002 International Conference on Image Processing.Piscataway: IEEE,2002: 589 - 592.

计算机视觉常用技术范文第4篇

关键词: 计算机视觉; 车辆检测; 速度检测; 消除车辆阴影

中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2016)09?0164?03

Abstract: On the basis of the comparison of the traditional moving vehicle real?time detection methods, a new G?C double difference method is proposed. The edge detection of a certain current frame and background frame in video stream is conducted, and then the results are subtracted from the two frames to get the gradient difference. After that the ″or″ operation for the difference result and background color difference result is performed to greatly improve the accuracy of the vehicle judgment. This algorithm can accurately detect the existing moving vehicle on the road and effectively eliminate the effect of vehicle shadow, which provides a strong guarantee for the real?time detection of the following vehicle moving velocity. Based on the results of moving vehicle detection, the programming realization was conducted in VC environment to automatically detect the real?time speed of the moving vehicle. The test results show that the effect of the algorithm is perfect.

Keywords: computer vision; vehicle detection; speed detection; vehicle shadow elimination

0 引 言

计算机视觉(Computer Vision)主要研究如何运用照相机和计算机获取被拍摄对象的数据与信息,形象的说,就是给计算机安装上“眼睛”(照相机)和“大脑”(算法)。目前,计算机视觉技术的应用领域十分广泛,其在道路交通管理中的应用更是取得了很好的效果。随着科学技术的飞速发展,现代交通在经济发展中所起的作用越来越大,而交通现代化带来的问题也越来越多,诸如交通拥挤、交通事故频发、交通环境恶化等。在这样的大背景下,智能交通系统(Intelligent Traffic System,ITS)作为一种强有力的交通管理手段应运而生,其高效率的管理特点使其成为当今世界道路交通管理的发展趋势,而计算机视觉技术则是ITS的重要技术支持。

实时车辆运动速度检测是ITS对交通实施监测和管理的重要一环,对车辆速度的检测一方面可以监控超速等违章问题,减少交通事故的发生,另一方面可以根据车速判断道路拥挤程度,进而迅速采取措施,保证道路交通的安全和畅通,从而实现智能交通管理的目的。在上一代ITS中,实时车辆运动速度检测的方法主要有线圈检测、激光检测、雷达检测等,这些速度检测方法多多少少都存在一定的问题,如容易受路基状况、自然环境等的影响精度降低,而在新一代ITS中基于计算机视觉的车辆速度检测法则大大提高了测速的精度,这有赖于计算机有一个“超强大脑”,即好的算法。

1 运动车辆的检测

运动车辆的检测是实时运动车辆速度检测的基础,使计算机能够自动的把相机摄取的视频里的静止物体与运动物体区别开,并且自动提取出运动物体。所以,在研究实时车辆速度检测算法前,先要研究运动车辆的检测算法。

1.1 现有运动目标检测方法比较

目前,常用的运动车辆实时检测方法主要有帧间差分法和背景差分法。

1.2.2 预处理帧的颜色差分

由于无论车身像素值是否低于路面像素值,其梯度边缘必然存在,而交通路面一般都很平坦,除了车道线外检测不到边缘,将当前帧与路面背景模型均进行边缘检测,再将两个边缘图像按式(8)做差得到运动物体的边缘梯度差分图像:

3 实验结果与分析

笔者用实际拍摄的视频图像对上述算法进行了试验测试,实验时模拟实际交通摄像机的安装情况,使其固定不动,计算机处理的速度约为20 f/s。首先将视频中的某一帧进行边缘检测,与背景做梯度差分,并与背景颜色差分的结果进行“或”运算,最后对图像去噪并二值化,通过测试多种路况、天气和光照条件,试验结果显示该算法可以在阳光充足、遇到物体阴影明显的情况下准确地将运动车辆从视频的背景中提取出来,并能准确检测出车辆的速度,如图3所示。

4 结 语

计算视觉的应用提高了智能交通系统的准确性,本文在对比了传统运动车辆实时检测方法的基础上,提出了一种新的运动车辆实时速度检测算法,此算法与传统的算法相比,可以更加准确地检测出路面运动车辆的存在,同时有效消除车辆阴影的影响,为后续车辆运动速度的实时检测提供有力保证。基于运动车辆检测的结果,进行编程实现,可以自动检测出运动车辆的实时速度,测试结果表明该算法效果很好。

参考文献

[1] MARR D, HILDRETH E. Theory of edge detection [J]. Royal society of London proceedings, 1980, 207(1167): 187?217.

[2] 高富荣,方强.机动车地感线圈测速监测系统性能和检测方法研究[J].上海计量测试,2008(2):27?28.

[3] 安福东.机动车的几种测速方式原理及性能的分析比较[J].警察技术,2003(3):33?35.

[4] 姜永林,孙国栋.交通车辆视频测速技术[J].仪表技术与传感器,2007(9):69?70.

[5] 弼程,彭天强,彭波.智能图像处理技术[M].北京:电子工业出版社,2004.

[6] 邢霄飞,李永宁,林木华.一种基于纹理分析的视频车辆测速方法[J].计算机应用,2005(12):2803?2805.

[7] 周许超,屠大维,陈勇,等.基于相位相关和差分相乘的动态背景下运动目标检测[J].仪器仪表学报,2010(5):980?983.

[8] 王芳林.稳健视觉跟踪算法中的关键问题研究[D].上海:上海交通大学,2009.

计算机视觉常用技术范文第5篇

诞生于20世纪40年代的电子计算机是人类最伟大的发明之一。并且一直以飞快的速度发展着。进入21世纪的现代社会,计算机已经进入各个行业,并成为各行业必不可少的工具。如今的计算机发展的更加智能化,就如今来说,人们最什么事情都非常重视信息,人类和社会的发展,时刻都离不开信息。计算机如今重视的方面就是对信息的阅读和控制,人脸检测与识别技术也是应运而生。

人脸识别的论述

人脸识别是人类视觉中的一大特色,因为能对身边的人进行识别,才不会对身边的信息进行混淆,简单来说,根据人脸可以对人的年龄,性别进行初步判断。随着计算机技术的智能化,计算机业已经通过视觉能进行人脸的识别。其中在对人脸识别的同时进行有关信息的收集、识别、提取、变换、存储、传递、处理、检索、检测、分析和利用等技术。如今人脸识别已经应用于很多的领域,但是要人脸检测与识别是需要基于本来已经收集和整理的信息本库才能进行。再加上现在计算机技术虽然已经接近成熟,然而在人脸识别方面的表情传达出什么信息还是无从下手进行编程和设计。所以,基于计算机视觉的人脸检测与识别技术还是会有很广的发展空间,再加上人脸识别还可以维护人们的财产安全和隐私保护,必然会引起社会各界人士的广泛关注。

从19世纪末开始就已经有人对人脸识别进行了研究,因为当时没有先进的科学技术做后盾,所以经过了数百年的研究仍然没有什么显著的进展和成果。直到20世纪90年代人脸识别才成立了自己的学科,在加上当时的科技发展水平已经达到了不错的水平,人脸识别这个学科得到了快速的发展。如今,我国的计算机技术也已经居于世界的前列,我国也已经拥有比较完善的一套东方面孔的人脸数据库。

人脸识别在发展过程中大概经历了三个阶段:第一阶段就是对人脸特征进行整理,整理出所需要的数据库,并且应用当时的计算机技术做出一套质量不错的人脸灰度模型,这个阶段的识别工作全部由操作人员来完成;第二阶段比第一阶段要先进,有了基础人机互交,将人脸的特征经过多维度的矢量在模型上表示出来,并也可以设计出一套人脸识别的系统,这个阶段的识别不再是仅仅依靠操作人员,而是操作者和计算机一起完成;第三个阶段是计算机智能识别的最高峰,一切操作和识别都依靠机器全自动化进行,在人脸识别过程中也不再是每台计算机都需要完成一整套的工作,也实现了计算机与计算机之间的互联,多台计算机一起完成人脸识别的过程,都人力也是一种解放。

积极践行人脸检测识别技术

人脸检测识别技术是计算机实现智能化特征后的又一重要发展方向之一,它已经在世界范围内得到了广泛的普及与应用。人们可以通过人脸识别来进行定位,来起到保护人们财产安全的作用,通过人脸识别来抵制社会中的造假率,之前曾经有一些不法分子利用假身份来做损害公共利益和侵犯人们隐私权的事情,有了人脸识别让不法分子没有可乘之机,也应用人脸识别来对财务密码进行联系,起到对人们的财产有绝对的保护作用,对社会的安定何尝不是一项有意义的发明。

人脸识别一直是计算机智能化发展过程中的一个重要领域,因为人脸的识别与检测是一个很难做到完善的项目,由于人类的面部表情丰富,要对人类的面部表情做出判断和分析会存在一定的困难。再加上人脸识别的过程中,每个独立存在的个体都有一张专属于自己的脸。它的轮廓没有明显的特征界限,同时对眼、鼻子、嘴等器官在脸上的分布情况也没有明确的界限,这就使得对人脸识别来进行算法设计有一定的困难,所以只有通过轮廓特征来进行初步的判断,分辩出各种器官,再根据器官来完成人脸的分布情况设计灰度模型的完成工作。

计算机视觉常用技术范文第6篇

关键词:太阳跟踪; ARM微控制器; 计算机视觉; CMOS图像传感器

中图分类号:TN91934; TP36文献标识码:A文章编号:1004373X(2012)04007104

Sun-tracking system based on ARM embedded image processing platform

CHEN Lijuan, ZHOU Xin

(Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)

Abstract: Based on computer vision principle, the realtime tracking of sun was realized by taking ARM microcontroller as the core to construct the embedded image processing platform. The system collects images of sun through CMOS imaging sensor, and computes the sun angles relative to the tracking platform by a microcontroller. With the computed sun angles information, the system controls the turntable through a serial port to make the solar panel perpendicular to the sun radiations. Meanwhile, another tracking mode based on sun trajectory is integrated in the tracking strategy to insure the system reliability. The teat result indicates that the system can reduce the system energy consumption and effectively track sun.

Keywords: suntracking; ARM microcontroller; computer vision; CMOS image sensor

收稿日期:20110813

基金项目:国家自然科学基金资助项目(61102138);南京航空航天大学基本科研业务费专项科研资助项目(V1090031)0引言

随着社会的发展和进步,环保节能已经成为人类可持续发展的必要条件。目前,再生能源的开发和利用越来越受到人们的关注。太阳能由于其普遍、无害、无限、长久等特点,成为最绿色、最理想、最可靠的替代能源[1]。但太阳能同时存在分散,不稳定,效率低等特点,太阳能光伏系统为解决这一问题提供了条件[23]。

就目前的太阳能光伏系统而言,如何最大限度提高太阳能的转换率,仍是国内外的研究热点。有研究表明,和始终朝南的固定表面相比,与太阳辐射方向始终保持垂直的表面对太阳能的利用率提高约33%[4]。太阳跟踪装置可以保证太阳辐射方向始终垂直于太阳能电池板平面,使接收到的太阳辐射大大增加,提高了太阳能的接受率与利用率,因而得到广泛的应用。

太阳跟踪装置的分类方法有很多,按照跟踪方法,主要可分为视日运动跟踪和光电跟踪,视日运动跟踪又可分为单轴跟踪和双轴跟踪[5]。光电跟踪装置有较高灵敏度,结构简单,能通过反馈消除累积误差,具有较大优势,但受环境影响很大。其关键部件是光电传感器,常用的是光敏电阻。由于光敏电阻安装位置不连续和环境光散射等因素的影响,系统不能连续跟踪太阳,精度有限[6]。视日运动跟踪能够全天候实时跟踪,但是存在累积误差。其中,单轴跟踪装置结构简单,但跟踪误差大;双轴跟踪装置算法复杂,跟踪难度较大,但跟踪精度较高[78]。

本文用基于32位ARM嵌入式微控制器S3C2440来构建太阳跟踪系统,采用CMOS图像传感器来感知太阳方位,并通过微控制器计算获取太阳跟踪误差,实现对太阳的高精度跟踪。加入视日运动规律,在跟踪目标丢失时,对系统进行重新定位。同时,该系统的结构简单轻便,功耗低,环境适应能力强,能应用于各种太阳能设备。

1硬件设计

1.1系统硬件结构

系统以ARM微控制器作为主控制器,采用CMOS图像传感器采集图像,并利用双轴转台来支撑太阳能电池板。其中双轴转台集成了电机驱动与控制部分,通过串口与主控制器进行通信。

如图1所示是太阳跟踪系统的硬件结构图。在图1中,CMOS图像传感器与太阳能电池板处在同一平面,并固连在双轴转台上;ARM处理器与双轴转台的电机驱动部分采用串口通信方式;系统的供电均由蓄电池支持(包括ARM控制板和转台),因而形成了一个独立系统。系统的基本工作原理是:根据视日运动规律或CMOS图像传感器采集的天空图像,利用ARM处理器求取系统跟踪控制参数,并通过串口来控制双轴转台的转动。

图1太阳跟踪系统的硬件结构图1.2硬件介绍

(1) ARM微控制器。从实用角度考虑,太阳跟踪系统的低功耗设计显得尤为重要,ARM微处理器在保证高性能的前提下能够尽量降低功耗[9]。相对于PC机,ARM微处理器占用空间较小,质量轻,可靠性强,硬件资源丰富,在简化系统结构的同时为系统功能扩展提供了可能。系统选用32位ARM嵌入式微控制器S3C2440来构建控制平台。运用ARM微控制器构建的嵌入式图像处理平台大大提高了图像的处理速度,同时有效降低了系统成本。图像处理系统还具有拆装方便,配置灵活等优点,安全性得到大大提高[10]。

(2) 双轴转台。系统采用集成式双轴转台,其结构如图2所示,工作电压为24 V,可利用蓄电池供电。在图2中,x向为水平方向,y向为垂直方向。x向转角对应太阳方位角,y向转角对应太阳高度角。该双轴转台x向转动范围为-157°~+157°,y向转动范围为0°~90°,集成了电机控制模块,并提供串行接口,控制器可以利用串口通信来控制并驱动转台在x向和y向上的转动。

(3) CMOS图像传感器。图像传感器产品主要有CCD,CMOS,CIS三种。其中CMOS图像传感器集成度高,价格低廉,而且可以实现数字化输出,软件可编程控制,提高了系统设计的灵活性,同时也具有较高的抗干扰性和稳定性[11]。系统采用的图像传感器为OmniVision公司的OV 9650型COMS摄像头,其功耗为30 μW,阵列大小为1 300×1 028 pixels,焦距为4.85 mm,像素大小为3.18 μm×3.18 μm,支持软件可编程控制,输出图像格式包括YUV,RGB等。

图2双轴转台的结构图2软件设计

2.1跟踪控制策略

图3所示是太阳跟踪系统工作过程流程图,系统采用的跟踪控制策略如下:

(1) 系统可设置2种工作模式,早晨6:00唤醒跟踪控制系统,系统启动跟踪控制,进入跟踪模式;下午18:00休眠系统,系统关闭跟踪控制,进入待机模式。同时系统采用粗跟踪和精跟踪2种方式,粗跟踪采用视日运动跟踪方法,精跟踪采用基于计算机视觉的跟踪方法。粗跟踪为精跟踪提供初始工作条件,精跟踪保证系统的跟踪精度。

图3太阳跟踪系统工作过程流程图(2) 唤醒跟踪控制系统时,采用视日运动开环计算方法进行粗跟踪。粗跟踪的基本过程是:根据太阳运行的天文规律计算,利用系统时间和给定的当地经纬度计算太阳高度角和太阳方位角,并根据计算结果来驱动并控制步进电机,从而调整太阳能电池板的角位置。粗跟踪的目的是为了让太阳进入图像传感器的视野范围,主要用于首次定位和目标丢失后的重新定位。

(3) 系统工作在跟踪模式时,周期性采集图像,采用基于计算机视觉的闭环校正方法进行精跟踪。精跟踪的基本过程是:通过对采集图像进行处理,获取太阳角度偏差量。由太阳角度偏差量可得到转台应转过的角度,从而使太阳能电池板能正对太阳。精跟踪的目的是为了保证系统跟踪精度。

(4) 系统工作在跟踪模式时,由于阴天、雨天或其他原因,太阳光线很弱或基本看不见,导致CMOS图像传感器无法捕捉到太阳。此时,太阳能电池板的工作效率很低,为了减小跟踪系统能耗,不进行电机动作并保持当前状态。同时设置累计标志S,它表示图像传感器在连续S个采样周期内没有捕捉到太阳。当S累计到设定值N时,采用视日运动开环计算方法重新粗定位,并重置累计标志S。这样在降低系统能耗的同时可以提高系统可靠性。

2.2基于计算机视觉的跟踪方法

基于计算机视觉的跟踪方法,其基本过程如下:通过对采集图像进行处理,得到太阳位置偏差量。如果偏差在预设阈值范围内,则保持当前状态;如果偏差超出预设阈值F1的范围,则根据偏差的方向和大小调整转台,使得通过图像处理得到的偏差在预设阈值F2的范围内。其中阈值F1的范围比阈值F2的范围大,这样可以减小电机动作次数,降低能耗。

(1) 图像处理方法。图像传感器得到图像后,首先进行图像的灰度化。使用屏蔽字和移位操作来得到R,G,B分量,再进行比例转换,得到灰度图像。设置阈值,将图像二值化,得到的图像中的光斑即为太阳。找到太阳位置,计算光斑中心与图像中心的偏差值,将该偏差值换算为太阳方位角和高度角的实际偏差值。

(2) 偏差角计算与转台控制。记CMOS图像传感器的焦距为f,像素大小为kx×ky。假设采集图像上太阳位置偏离图像中心的偏差为px×py,则可以计算太阳偏差角如下:

太阳方位偏差角:Δα=arctan(px×kx/f) ;

太阳高度偏差角:Δβ=arctan(py×ky/f) 。

根据太阳方位偏差角和高度偏差角,通过串口控制转台转动,使太阳能电池板正对太阳。其中转台x轴应转过的角度为太阳方位偏差角,转台y轴应转过的角度为太阳高度偏差角。

2.3嵌入式处理平台的实现

系统采用S3C2440作为主控制器。利用Linux内核代码,针对本处理器和本系统特点,对内核进行相应的配置和裁剪,编译生成嵌入式内核,并选用yaffs作为根文件系统,将内核映像文件和根文件系统烧写到微控制器中,并编写相应驱动程序。

程序在主机上设计完成后,需进行交叉编译,然后下载到处理器运行。

首先在主机Linux系统下搭建交叉编译环境,这里采用armlinuxgcc4.3.2 with EABI版本的交叉编译器,并配置主机和目标板的NFS和FTP网络,以实现主机到目标板的文件下载和主机对微控制器的控制。程序编写完成后,进行交叉编译,生成可执行文件,下载到处理器运行即可。

3实验结果

3.1基于计算机视觉方法的跟踪实验

如图4所示是某次精跟踪过程的实验结果,其中(a)为CMOS图像传感器捕捉到的原始图像;(b)为经过灰度化、二值化后的结果,可以看出图像中的太阳已经被提取出来;(c)为精跟踪一段时间后图像传感器得到的图像,可以看出太阳处在图像中心位置,此时太阳光线垂直照射太阳能电池板。

图4视觉跟踪试验结果3.2系统技术指标

对本文提出的太阳跟踪系统进行了性能测试,通过分析测试结果,该系统的技术指标如表1所示。

表1太阳跟踪系统的技术指标

方位角范围-157°~+157°高度角范围0°~90°跟踪精度0.05°系统自重 /kg11工作温度范围 /℃-10~60噪音范围 /dB≤70系统平均耗电量 /W≤5

4结语

本文中设计的太阳跟踪系统采用视日运动跟踪方法和基于计算机视觉的跟踪方法相结合的方式,一方面采用视日运动跟踪方法进行初始粗定位和系统丢失目标时的重新粗定位;另一方面采用基于计算机视觉的跟踪方法进行精确跟踪。基于计算机视觉的跟踪方法采用CMOS图像传感器采集太阳光斑,利用ARM微控制器处理采集到的图像,实现对太阳的实时跟踪。实验结果表明,该系统可以连续跟踪太阳的角度变化,能够达到较高的跟踪精度;当跟踪目标丢失时,能够利用视日运动跟踪方法对系统重新定位,具有较好的环境适应能力。该系统具有较低的日均功耗、较高的跟踪精度和可靠性,结构简单轻便,可应用于各种太阳能光伏系统。

参考文献

[1],杨景常,郑宇.向日葵型跟踪太阳智能发电装置的研制[J].西华大学学报:自然科学版,2007,26(6):1820.

[2]苑玮琦,金晶晶.基于图像传感器的太阳方位检测系统研究[J].微计算机信息,2007,23(12):141143.

[3]HELWA N H.,BAHGAT A B G.,SHAFEEA M R E, et al. Maximum collectable solar energy by different solar tracking systems \[J\]. Energy Sources, 2000, 22 (1): 2334.

[4]GAY C F, YERKES J W, WILSON J H. Performance advantages of twoaxis tracking for large flatplate photovoltaic energy system \[C\]// Proceedings of 16th IEEE Photovoltaic Specialists Conference. \[S.l.\]: IEEE, 1982: 13681371.

[5]郑小年,黄巧燕.太阳跟踪方法[J].能源技术,2003,24(4):149151.

[6]杜伟巍,邹丽新,尤金正,等.基于CMOS图像传感器的太阳自动跟踪控制器设计与实现[J].现代电子技术,2009,32(11):150154.

[7]郑小年,黄巧燕,张晓黎,等.太阳集热器跟踪台的设计与控制[J].中国机械工程,2003,14(12):10071009.

[8]KALOGIROU S A. Design and construction of a oneaxis suntracking system \[J\]. So1ar Energy, 1996, 57 (6): 465469.

[9]周立功.ARM微控制器基础与实践[M].北京:北京航空航天大学出版社,2003.

[10]马俊青,宋爱国,甘英俊.一种基于ARM的图像处理系统的设计[J].电气电子教学学报,2009,31(4):6669.

[11]何小明.用CMOS芯片取代CCD[N].中国电子报,2000915(5).

[12]孙梦宇,赵敏,吴毅杰,等.基于ARM的电子负载网络监控系统\[J\].电子科技,2010(3):4649.

计算机视觉常用技术范文第7篇

AlphaGo的出现加速了人们对人工智能(Artificial Intelligence以下简称AI)的理解,但AI极客们的野心远非19行的棋盘可以局囿,他们拥有酷炫的技术和非凡自信,并想以此来改变世界。

美国畅销书作者、发明家雷.库兹韦尔(Ray.Kurzweil)在《奇点临近》一书中为人工智能的出现设定了三个条件:强大的计算能力、海量的知识储备,最后还需要教会计算机拥有认知能力,通过机器学习技术让计算机不断的自行进化。

前两者已经实现。第三点,如何让机器拥有认知能力是AI极客们关注的重点。

机器学习是人工智能的核心。机器学习将教会计算机认识现实世界,知道自然界的日升日落、阴晴圆缺,并能理解人类的行为和语言。机器学习的常用领域包括数据挖掘、视觉理解、语音识别和自然语言处理等方面。我们采访了数位科技公司高层、新锐创业者,他们有一个共同的身份―国内从事机器学习的应用和研发的专家。他们讲述了中国人工智能发展的现状,而一旦科技出现新突破,也预示着新一轮的商业变革。 先知

坐在记者对面,脸庞消瘦的陈运文笑得有些腼腆,言语却充满自信,“很多事情都是可以预测的”。

陈运文是国内大数据方面的专家,曾任百度核心技术研发工程师和盛大文学首席数据官。现在他是个创业者,达观数据创始人兼CEO。他为公司新入职的同事下发了一套题――如何预测泰坦尼克号上的幸存者。整套题通过获取泰坦尼克号上所有乘客的真实信息,包括性别、年龄、职业、票价、舱位等,然后编写程序来预测这2000余名乘员中哪些人最终得以生还。

在陈运文眼里,将所有信息加以综合挖掘,就能够推演出最终的答案―“705名生还者都可以准确预测。”

预测这样的事件只是数据挖掘的一个案例,对于极客而言,只要给他们足够的信息,这个世界就没有意外和偶然。

现在,陈运文用自己的技术帮助企业进行商业决策。虽然只成立不到半年,但这个隐藏在张江天之骄子公寓里的创业公司已经获得真格基金和盛大网络创始人陈大年的投资。

陈运文将第一批客户瞄准为自媒体人,通过数据分析,为自媒体提供可以引发热议的话题,并告诉这些作者,什么人喜爱看他们的文章、会关注什么话题。

让机器自己学会分析信息早就在商业行为中广泛存在。在百度工作期间,陈运文负责搜索引擎的核心算法研究,主要“为用户提供最有价值的信息”。 工作的难点不在于搜索信息,而在于让机器认知用户的搜索意图。

用户经常会在搜索框中输入“口语词汇或者模糊的语句”,服务器要从人们的搜索语句中判断真正的需求。陈运文就需要设计算法让搜索引擎理解用户的语义,从数百亿的网页中迅速找到对用户最有价值的结果。这种“算法”就属于人工智能。百度每天的搜索有数十亿次,每当陈运文改进了算法都能看到用户点击的满意度在上升。

今天这种依靠数据挖掘技术来提高企业运作效率的方法变得更常见,业内将其称为“商业智能”(Business Intelligence)技术。陈运文计划将这种技术在云端运用,另一些同类公司则将这种技术直接运用在软件上。2010年在美国纳斯达克上市的Qlik公司就是商业智能软件的代表企业。他们的QlikView软件为用户提供“可视化”的大数据服务。

“我们的软件可以理解数据,挖掘数据并将其用更直观的方式展现给客户,以帮助管理层做出决策。” Qlik亚太区制造业和高科技市场开发总监Jeremy Sim对《财经天下》周刊表述。

这些带有“预测”功能的软件已经在服务并改变人们的生活,比如根据顾客的购买信息QlikView会提示便利店店长,售货架上的麦片不应该和面包摆在一起,虽然它们都是早餐食品,但如果将麦片和酸奶摆在一起,销售数字会更好看。此类预测还进一步提醒物流部门,尽量地在头天晚上补足麦片和酸奶货源。这类商业智能的应用渗入所有人的生活,以这家公司为例,他们已经在全球100多个国家招徕了3.8万企业客户,间接服务人群上千万。

未来这些带有“智力”的系统将会更多的出现在电商、医疗、教育、金融等领域。“比如随着智能手环的增加,会有更多的健康数据被采集,那么我们会提供健康预警、治疗方案推荐等服务。”陈运文说。现在只是大数据挖掘的初级阶段,人工智能时代也才刚刚开启。 视觉理解,打造机器之目

2014年6月,比尔・盖茨访华,除了见政商要员外,他还专门造访了一家刚成立一年的创业公司―格灵深瞳。对于这家初创公司,比尔盖茨留下了两句后来被广泛引用的评语“This is very cool”和“IT界的下一个大事件是计算机视觉(computer vision)与深度学习(deep learning) 的结合”。

格灵深瞳就是这样一个结合了计算机视觉和深度学习为一身的酷公司。创始人赵勇是致力于视觉理解的知名极客,虽然他本人并不喜欢这个称谓。

“极客(Geek)在英文里形容书呆子,只会做技术不通世事,但我觉得我是一个懂技术的正常人。”他对《财经天下》周刊说。

赵勇专攻计算机视觉和运算影像学,2009年入职谷歌总部研究院任资深研究员,是谷歌眼镜项目的骨干。“我们团队负责谷歌眼镜的场景识别技术,利用谷歌街景来判断使用者所处的位置。”简单地说就是将谷歌眼镜捕获的图像和谷歌街景做比对,然后快速地定位用户所处位置和周边信息。谷歌眼镜可以在500毫米之内将用户的位置精确到米级别。赵勇说谷歌眼镜并不是“进化的产品,而是从无到有的突破”。

2013年初,赵勇回国创业成立格灵深瞳,并在三个月后拿到真格基金和联创策源的联合天使投资,同年6月格灵深瞳又拿到红杉资本 A 轮高达数千万美元的投资。

业内传播着投资人争论其未来估值的段子,据说某次饭局上真格基金的徐小平、红杉资本的沈南鹏和联创策源的冯波讨论格灵深瞳的未来估值,徐小平认为起码5000亿美元,而沈南鹏认为1000亿美元,最后冯波折中地认为3000亿美元。而现在中国电商巨头阿里巴巴的市值还不到1900亿美元。

受到比尔・盖茨和投资人如此追捧的原因在于赵勇的研究方向―计算机视觉,这是机器学习中极为复杂的领域。

将赵勇和陈运一个对比就可以看出他们研究方向的不同。赵勇认为数据挖掘是让计算机理解“结构化信息”,结构化指那些人工制作的成型的信息数据,例如一句话一段文字或者一份表格。但计算机视觉需要让机器理解飘过镜头的一片树叶,或者悄悄走过的一只猫。

陈运文对此也做了比较,他认为数据挖掘更多的是处理文本信息,而文字是具象的表达,机器看到汉字“猫”或者英文“cat”就可以理解这是一种动物,但图片是抽象信息,给计算机看一张猫的图片,让它去理解猫的概念非常困难。

所以当2012年6月谷歌X实验室宣布他们研发的“谷歌大脑”通过百万张图片的学习后可以识别“猫”的时候,全世界都为之震惊。这意味着谷歌培养的这个“孩子”具备视觉理解的能力可以“看图说话”了。而参与“谷歌大脑”研发的吴恩达博士(Andrew Ng)也因为这个项目被誉为“谷歌大脑之父”,成为机器学习领域最权威的学者。

为了建造“谷歌大脑”,吴恩达使用了神经网络系统,他们连接了1.6万片处理器创造了一个拥有10亿多条连接的神经网络,并逐步地培训这个系统,直到它拥有识图的能力。

现在,赵勇做的事情与此类似。

他通过影像设备捕捉实时画面,让计算机识别这个真实世界,更为直接的说法或许是―赵勇正在研制“机器人之眼”。

像谷歌一样,想让计算机能识别图像,赵勇也需要制作一个“深度神经网络”系统。

在人脑中有大约1000亿个神经元,神经元通过神经突出连接在一起就变成了一个神经网络,人们思考问题的时候这些神经网络相互激发,最终产生决策。现在极客们用计算机来模拟这个过程,用计算程序建立起庞大的计算元素,这些程序运算的结果通过网络互为交换互相影响,最终产生结果,这就是初级的人工神经网络。人工神经网络层级越多规模越大,其“聪明程度”就越高,学习的能力就越强。

要培养这样一个会“识图的孩子”,赵勇除了要建立这样一套庞大的神经网络之外,还需要不停训练这个网络。

“可以将神经网络当成一个黑盒子,我在里面设定了一些基本参数,随后不停的往里面输入数据、图片来训练它,通过这种大量的训练,黑盒子里面参数的连接会越来越紧密,整个网络也会越来越聪明,最终变成一个可以识别图片的智能系统。”

严格地说,人工智能不是人类设计出来的,而是人类训练出来的。即便是赵勇这样的创建者也无法知道这些神经网络到底如何相互作用相互影响,并最终形成自己的智能系统。他能做的只是“选择输入数据,控制训练方向”。

依旧以老师教育孩子做比喻,虽然赵勇这个老师不知道孩子是怎么理解图片,识别这个世界的,但他可以控制教学的内容,让这个孩子朝某个方面学习。

赵勇花费了两年时间才为格灵深瞳培养出自己的“孩子”,并将这些有“识图能力”的人工智能设备应用到安防监控和汽车识别方面。

去年格灵深瞳推出了名为“目”的行为分析仪,这是一个包含软硬件于一体的智能监控产品。“目”会实时监控场景内的情况,发觉异常就立刻报警或者提醒工作人员注意。而在另一个名为“威目”的产品中,格灵深瞳做到了车辆识别,他们训练系统辨识超过5000种车辆,这几乎涵盖了地球上所有的汽车类型。这种能力为警方办案提供了帮助,警方可以用“以图搜图”的方式让“威目”提供他们需要的视频资料。“警方提供一张汽车照片,威目在识别照片之后可以从交通录像中找出该车的行动轨迹。”除此之外,该系统还可以搜索“结构化信息”,例如在系统中输入2004年生产车牌中含有5这个数字的红色奥迪A4汽车,“威目”就会在资料中截取相关的图像或者视频,而此前这些工作都需要人工完成。

如果计算机视觉技术以这样的速度继续,或许用不了几年,当我们站在摄像头前时,计算机会在屏幕上敲出那句让人激动的言语―“I see you .” 造物者

“谷歌大脑之父”吴恩达在完成了“认猫”创举两年后离开了谷歌,加盟了百度,任职百度首席科学家并负责“百度大脑”的研发。

说服吴恩达做此决定的是他的好友,现任地平线机器人技术CEO的余凯。

余凯是国际知名的机器学习专家,他牵头成立的百度深度学习研究院是国内第一个研究深度神经网络的研究机构,加盟百度时被李彦宏称为“镇院之宝”。

“深度网络学概起始于2006年,当时主要有5个机构从事这方面的研究,分别是多伦多大学、纽约大学、美国的NEC实验室、斯坦福大学和蒙特利尔大学,而我当时在NEC实验室工作。”余凯说。有段时间他还在斯坦福大学执教《人工智能概论》。他领导的团队在深度学习、图像识别、文本挖掘、多媒体检索、视频监控,人机交互等机器学习领域都有建树。

去年余凯离开百度,在中关村的创富大厦租赁办公室成立地平线机器人技术。成立仅4个月,这家公司就迎来了首轮投资,投资方包括晨兴资本、高瓴资本、红杉资本、金沙江创投等多家机构。

比起商业上的追求,余凯更想用技术改变世界―为万物装上人工智能的大脑,让它们变成拥有智能思维的机器人。

在余凯看来,他在百度的工作主要是在“云端”搭建人工智能深度神经网络,其服务主要体现在“为用户提供更智能的互联网服务”,他希望通过人工智能技术应用到物理世界中,让人们的生活变得更方便和简单。“现在很多电器都采用软件结合互联网操控,我希望未来都可以实现本地人工智能操控。”

他准备让汽车、空调、冰箱、微波炉等上千种产品或设备都具有从感知到决策的能力。比如用户进入房间时空调就可以感知人的位置和体温自动开机送风,并追随人的移动而改变送风方向;冰箱则会读取存储食物的信息,及时提醒用户食用或补充。

余凯利用深度神经网络算法来搭建他的人工智能框架。他将这种人工智能系统描述成“类似于安卓的智能硬件的大脑平台”,这个系统可以安装在不同的产品中。

他“改造万物”的计划先从家居产品和汽车两个方面着手。地平线机器人技术研发了针对这两个行业的人工智能操作系统。家居方面的基于深度神经网络的操作系统名为“安徒生”,汽车的则称为“雨果”。

现在 “安徒生”已经入驻家电产品,在刚刚过去的上海家博会展上,地平线机器人和某国内知名家电厂商合作的两款智能产品面世参展。“现在业界最大的智能家居厂商都是我们的客户,我们向他们提供算法操作系统,并告诉他们如何配置硬件设备,就像安卓向手机厂商提供参考设计一样。”

下一步余凯准备让“雨果”进入汽车自动驾驶领域,在安装了传感器、处理器和雨果大脑平台后,汽车可以成为提供无人驾驶或智能驾驶的新型交通工具。

“定义万物智能的大脑,这还要花很长时间,但是我觉得一步一步往那边靠近。” 余凯知道地平线机器人的征程漫漫,但对于AlphaGo对战李世石这样的人机大战新闻他却无比笃定。“赛前几乎所有专家都说这次机器赢不了,但我在接受网易采访的时候就公开预测机器会赢,因为我了解AlphaGo的算法。”

陈运文也表达了相同的猜测。3月9日下午,陈运文就兴奋地预测AlphaGo能够获胜,那时首尔的李世石刚在棋盘上落下自己的第一枚黑子。

3个小时后,对弈到186手时李世石投子推枰宣告认输。

计算机视觉常用技术范文第8篇

关键词:图像融合;图像拼接

一、引言

    图像拼接(Image Stitching)技术是由于摄像设备的视角限制,不可能一次拍出很大图片而产生的。图像拼接技术可以解决由于相机等成像仪器的视角和大小的局限,不可能一次拍出很大图片而产生的问题。它利用计算机进行自动匹配,合成一幅宽角度图片,因而在实际使用中具有很广泛的用途,同时对它的研究也推动了图像处理有关的算法研究。

 

图1  图像拼接流程图

图像拼接技术的基本流程如图1-1所示,首先获取待拼接的图像,然后是图像配准和图像融合,最终得到拼接图。图像拼接技术主要包括两个关键环节,即图像配准和图像融合。

图像配准主要指对参考图像和待拼接图像中的匹配信息进行提取,在提取出的信息后寻找图像间的变换模型,然后由待拼接图像经变换模型向参考图像进行对齐,变换后图像的坐标将不再是整数,这就涉及到重采样与插值的技术。图像拼接的成功与否主要是图像的配准。