首页 > 范文大全 > 正文

谁的耳朵更灵敏?

开篇:润墨网以专业的文秘视角,为您筛选了一篇谁的耳朵更灵敏?范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

我们的耳朵是一个高度复杂的系统,同时也是一个高精度的测量“仪器”。普通人的每只耳朵都有约15 500个毛细胞,可以分辨出400 000余种音调。经过专门训练的人甚至可以直接判断他所听到声音的音调值。但是,人类的听觉有一定的频率范围限制。举例来说,在水下负责录制鲸咏(又名鲸歌)的潜水员需要佩戴专业的扩音收音装置,因为鲸咏的频率最高可达280KHz,而人类可以听见的频率范围是16Hz~20KHz。虽然专业的扩音收音装置可以录制到更广的声音频率范围,但是只有人类可以专注于某种特定的声音,并且准确定位声音的来源。

耳朵:立体声定位

无论声音来自前面、后面,还是侧面,双耳都可以迅速定位其来源和距离。人耳的两种关键能力正在被科学家们迁移到机器人身上,一种是对于耳间时间差(Interaural Time Difference,ITD)的处理,一种是对于耳间声压差(Interaural Intensity Difference,IID)的处理。由于人的双耳分布在头部两侧,所以头部在声音传递的过程中形成了天然的障碍。因此两只耳朵会获得不同的声压,而且大部分声音不会同时进入双耳,例如来自左侧的声音会先进入左耳,然后继续以340m/s的速度进入右耳,形成时间差。在声学上,这种现象被称为“头影效应”(Head-Shadow Effect)。慕尼黑科技大学仿生学教授Werner Hemmert博士表示:“人耳可以分辨出0.01ms的时差,但是由于软件的处理速度较慢,所以目前的机器人只能精确到10ms级别。”

柏林洪堡大学神经机器人实验室主任Manfred Hild博士对CHIP杂志表示:“人的立体声听觉也受到耳朵肌肉和肩膀的影响。科学家们已经有意识地将人耳的完整结构运用于人工智能系统。”因此,很多机器人的头部设计与人的大小和形状相当,尽可能地以人类的方式利用头部两侧的麦克风获取立体声信号。

当机器人身处预先专门准备好的测试环境中时,可以利用立体声定位功能,像人一样快速定位声源。但是,当机器人身处同人一样的真实日常生活环境中时,声源定位就不是一件简单的事情了。机器人与人类最关键的区别就是缺乏环境适应和理解能力。一个我们熟知的现象就是鸡尾酒效应:当许多人在聚会场所聊天,同时还伴随着从音响中散播出来的背景音乐的时候,人类依然可以仅专注于某一个对话。但是这种场合对于机器而言就是难以逾越的挑战了。由于机器人无法确定哪个声源是真正需要关注的而无法快速过滤掉所有无关的频率,所以此时的环境里只有一种不可识别的声音――噪音。

人工智能:听觉的妥协

科学家们根据应用需求的不同,使用了很多巧妙的方法使机器人获得更好的听觉表现。其中,很多人工智能研究中使用到的成熟方法,已经成功转换为市场上的可行解决方案。有几项优秀的音频过滤方案已经开始在移动终端设备、车载免提装置和远程会议系统上崭露头角。但是柏林洪堡大学的机器人专家Hild告诉我们:“目前来看效果并非总是令人满意,例如汽车发动机的声音会干扰到车厢内的整个声音频带,所以无法通过频率过滤技术简单地高尔夫其消除掉,必须配合声源定位技术才可以更好地工作。”

最新解决方案就是使用盲信号分离(Blind Signal Separation)技术,制造商采用多个分散放置的麦克风协助录制令人烦恼的噪音,然后将其过滤掉,只留下司机的声音。智能手机制造商也使用这个原理,通过机身背部的麦克风与机身正面的麦克风配合过滤掉杂音。慕尼黑科技大学仿生学教授Hemmert说:“我们目前的研究遇到了瓶颈,虽然新的解决方案取得了很大的进步,但是距离真正突破性的进展,还有很长的路要走。”其实,最关键的原因是日常生活中的噪音几乎是无规律的,而通过人工智能实现的机器耳朵无法适应不同的情景。

对于语音识别程序而言,这个过程并没有什么障碍,通常只要将麦克风至于嘴下即可,此时系统可以识别最大的声源。但是语音识别程序,尤其是非特定语音识别系统,比如导航系统面临着另一个很有难度的问题,就是它们需要识别讲话者的嗓音,保证输入的准确度,然后结合庞大的语义数据库和纠错能力,将语音转换为可理解的文字。

结论

Hild对目前的进展并不乐观,他说:“我们必须回头审视过去的发展历程,理解只有机器人可以并行处理所有信号数据,并根据这些数据进行综合判断的时候才可能取得重大的突破。”其实,即使这样也远远不够,因为我们并非仅通过耳朵听声音,还会通过眼睛定位对话者、移动自己的头部找到最好的试听位置。因此人工智能机器人必须将动力系统、声音信号和视觉信号结合起来,才能有机会拥有人类这样敏锐的耳朵。