首页 > 范文大全 > 正文

摄像头,像人类一样看世界

开篇:润墨网以专业的文秘视角,为您筛选了一篇摄像头,像人类一样看世界范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

与台湾供应链关系密切的苹果分析师Brain White在给投资者的一份说明中表示,因OLED显示屏和3D传感前置摄像头所需复杂工艺带来的挑战,下一代iPhone将会延迟几周上市。

今年3月,美国多家媒体报道,新一代iPhone将采用“革命性”的3D深度摄像头。普通的摄像头只能获取颜色信息并对其数据化,而3D深度摄像头则不仅能感知颜色,对空间―即三维的位置和尺寸信息也有“感觉”。也就是说,如果电子设备或机器人装上了这种摄像头,它就可以拥有近乎于人类的视觉,能够更好地和外界做各类交互。

截至目前,计算机视觉技术的发展并不十分完善。2015年7月,Google的照片管理应用Google Photos就曾犯下一个严重的错误,它把两名黑人标注为“大猩猩”。当时Google的首席社交架构师Yonatan Zunger对此事专门道歉,并且表示他们正在努力改善肤色识别技术。而很多自动驾驶汽车在路测中遇到事物,也是对迎面而来的物件识别错误,甚至会导致事故。

其实,很多公司已开始投入到视觉领域里,特别是深度摄像领域。比如以色列技术公司PrimeSense,它在2006年研发出3D传感器,随后与微软合作共同开发出体感设备Kinect,最终于2013年又以3.45亿美元的价格被苹果收购。此外,英特尔的RealSense以及Google的Project Tango项目也在做相关技术研究。

深度摄像头可以捕捉人的动作,比如你可以用手势和动作来控制电脑或者电视。目前,这个领域最成熟的技术,使用的是一个单目摄像头加上结构光的方案,Kinect用的就是这个技术结构。结构光是向检测空间内投射经过编码的激光光斑阵列,标定空间并辅助计算三维空间位置,随后经过一系列算法处理形成机器视 觉。

不过,类似结构也有不足。由于它完全依赖结构光定位,如果在户外拍摄就容易受到干扰。“尤其是有阳光的地方或者是多设备之间的干扰,这无法避免。”图漾信息科技有限公司的创始人费浙平对《第一财经周刊》说。图漾是一家专业从事计算视觉的中国公司。

为了解决这个不足,以及规避专利侵权―这个领域的几家大公司的技术大多都是封闭的,并没有开放给其他公司使用―图漾正在尝试用“结构光+双目摄像头”的技术实现景深计算,这也被称为主动双目技术。

该技术本质上是一个在结构光系统上叠加双摄像头的系统,因此对三维空间的测算可以不依赖于光,而是依靠左右两个摄像头形成图像后的比较。其实这和人眼感知环境的方式相同―左右两眼捕捉图像,然后通^比较两幅有细微差别的图寻找相对应的点,随后算出被摄物体在深度的距离差别,从而获取景深信息。这样做的精度要超过单摄像加结构光的产品,可以达到毫米级别。

图漾或许是受了硅谷公司Leap Motion的启发,这家技术公司曾受资本热捧,其研发的手势识别产品使用的就是双目摄像头。图漾的区别是,它还保留了结构光,这使设备在黑暗环境下依旧能够保证测算的精度。

“结构光+双目摄像头”需要的是一套全新的算法。单摄像头技术基本上就是与存储好的光编码匹配,只需要不断优化结构光的编码,成像的质量也就能优化,而这个算法已经有了一套相对固定的内容。但如果采用双摄像头,则无法提前知道所要计算的环境如何。

除了体感游戏,深度摄像头还有很多应用领域。比如在安防领域,深度摄像头可对所拍摄人作行为分析,通过这些动作轨迹识别出人背后的意图,从而提前预警。在物流仓储领域,它可以用来实时检测包裹的大小,计算仓库的空间,提供最佳的摆放建议等。

而机器人领域则更加容易想象,可以实现视觉导航、规划路径、避障等功能。例如送餐机器人,它想要自由行走,就需要实时感知存在空间的环境,避免撞到人或者是其他物体,这就需要有机器视觉来帮助。而在无人驾驶领域,目前在这个行业大多使用超声波雷达技术收集周围环境,如果采用3D传感器,也能为车辆提供更为精确的环境感知能力。

但不同的使用场景对深度摄像头的要求并不一样,有时甚至需要“定制”。其关键技术指标主要有镜头视角、最大检测距离、检测精度和检测速度四项。

有分析认为,最为成熟的单目摄像头结构光方案,更适合工业化的产品;双目立体成像是一种比较新的技术,更适合室外强光条件和高分辨率应用,目前主要应用在机器人视觉、自动驾驶等方面。将两种技术做了一定结合的图漾,则会在基础平台上根据客户的应用场景给产品搭载不同的光学系统,光学系统决定了产品使用的距离、角度等。当然,由于既保证了一定的精确度,又可在较暗的环境下拍摄,它也较适合应用在移动端的产品上,不过目前研究这种技术方案的公司并不多。

除了“结构光+双目摄像头”,还有一种更成熟的技术方案也较适合移动端,名为TOF系统,即一种光雷达系统,它可从发射极向对象发射光脉冲,接收器则可通过计算这个过程中的光脉冲,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。TOF系统可确定3D范围影像,再利用测量得到的对象坐标创建3D影像。它同样具有深度信息精度高、不容易受环境光线干扰的优点。事实上,这也是微软第二代Kinect以及Google的Project Tango遵循的技术原理。

如果下一代iPhone使用3D摄像头,它就可以实现诸如3D拍摄、面部识别,甚至是虹膜识别等功能。而现在新一代iPhone推迟上市的消息,也反映了这种技术目前在产品量产上的一些困难,比如工艺的复杂度会增加一些制造流程,同时,对于移动端来说,搭载3D深度摄像头后,其功耗较大,对电池也提出了新的考验。

当然,如果上述功能真的能够在智能手机上实现,这当然是值得等待的―毕竟,iPhone在硬件上已经很久没有“革命性”的创新了。