多模态情感识别参透人心(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇多模态情感识别参透人心范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

随着语音技术和计算机视觉技术的成熟，以语音和人脸表情为主要信息的多模态情感识别技术也得到了进一步的发展。

情感识别解析副语言现象

人机交互技术的最终目标是为人类提供一个自然和谐的与机器进行交流的途径，它包括: 能够听懂人在说什么、看见人正在做什么、理解人的情感、给出适当的反馈等等。

现在的计算机技术水平已经可以实现一部分功能，但是对于一个自然和谐的人机交互界面是不够的。人类进行交流的时候，除了正常的语言和动作之外，还伴随着很多副语言（Para-language）现象。而副语言现象在很大程度上帮助我们去理解表层信息后面的含义。

副语言几乎时时刻刻都出现在我们平常的交流中，它包括声学现象，比如说话时候的气喘、笑声等等，也包括所谓的身势语，比如说话时候的脸部表情、肢体动作等等。关于副语言现象的研究早在上世纪中期就开始了; 副语言现象的研究对于和谐自然的人机交互有着重要的意义。如果我们能够透过副语言现象本身，综合分析对方的说话内容或者动作背后的含义，就必然能够大大提高人机交互的自然度。

多模态情感识别技术就是一种试图分析副语言现象的技术。它试图通过语音、人脸表情、肢体动作，认识到当前对象的情感或者态度。而语音和人脸表情作为两个最能反映说话人当前情感状态的模态，在情感识别技术中受到极大的关注。

计算机能够识别什么情感呢？这是一个非常复杂的问题。我们在日常生活中表现出来的各种情感往往只有细微的差异，而这些差异，连人类本身都很难准确地感知到。因此，要让计算机来识别这些情感几乎是不可能的。目前来说，计算机只能识别一些基本的情感状态，这些情感状态有比较明确的定义，而且也有比较明显的差异。但是对基本情感状态的分类众说纷纭。汤姆金斯在1962年首先提出，人类有八种基本的情感状态，分别是害怕、生气、痛苦、高兴、厌恶、惊讶、关心和羞愧。在随后的几十年里，不同的研究者提出了许多不同的关于基本情感种类的定义。这是由于他们的入手点不一样或者研究的对象不同导致的。

尽管对于基本情感的种类尚没有一个公认的定义，但这并不影响我们利用计算机去识别情感。我们完全可以根据具体的应用领域，确定我们所关心的情感状态分类。目前使用较为广泛的分类方法一般都是将人类的情感分为六个（高兴、难过、害怕、惊讶、生气和中性）或者八个（害怕、生气、痛苦、高兴、厌恶、惊讶、关心和羞愧）基本的情感状态。

情感识别技术试图通过分析语音和脸部表情的信息，来推断当前对象的情感状态或者态度，从而指导理解模块正确的理解语音识别和视觉分析的结果，帮助整个系统进行深层次的内容理解和人机交互。下文将分别介绍通过语音、人脸表情和两者结合进行情感识别的方法。

多模态情感识别参透人心

识别情感的过程就是一个透过现象看本质的过程。这里的现象就是指人类表达自己的各种途径，如脸部表情、语音、手势和肢体语言等等，而本质就是这些途径试图表现的内心情感。语音和脸部表情作为两种最为主要的表征情感方式，得到了广泛的研究。

语音情感识别技术

人在说话的时候如果带有强烈的情绪，就会刺激大脑中相应的神经，从而改变人说话的方式。简单说，就是听上去和平时说话不一样。通过提取语音信号中的各种声学参数，就能从某种程度上反映当前说话的方式，从而提供了推断出感情状态的可能性。一般来说，我们通过语速、基频、音强、音质和清晰度等参数来反映语音的情感状态。附表针对五种情感状态列出了这些声学参数的较为平均的表现。

尽管跟情感状态密切相关的语音特征并不多，但是描述这些特征的语音参数却非常多。为了进行情感识别，选用的语音参数少到几个，多到几百个。中科院自动化所利用分类回归树和时延神经网络技术对语音参数在情感识别中的重要性做了研究，指导了语音情感识别技术中语音参数的选择。他们认为基频的均值、最大值、范围，能量的均值，时长的均值等具有较好的区分情感状态的能力。在此研究基础上，中科院自动化所利用语音情感识别技术开发了情感B超、情侦宝()技术，可以在实时通信环境下，通过采集对话双方的语音信号，给出对话双方的相悦度和相关度的评价。

脸部表情情感识别技术

人为了表现情感通常都会做出一些细微的脸部动作，目前计算机视觉技术的发展，使得跟踪人脸肌肉细微的运动成为可能。一般来说，通过脸部表情识别情感有两种方法: 1. 通过静态图片; 2. 通过连续的视频流。利用静态图片的方法快速简单，它主要利用人脸的纹理信息的不同来表征表情。但是它可靠性不强，容易受到光照等周围环境的影响。通过连续视频流的方法判断情感较为可靠，它通过对人脸特征点运动的跟踪（比如眼角、嘴角等）来反映不同类型的肌肉运动。通过采用某种编码的方式，比如Ekman的人脸动作编码系统（FACS），将特征点的位置和运动与编码系统中定义的基本动作联系起来。通过这些基本动作的组合达到情感识别的目的。

中科院自动化所开发的实时脸部表情识别系统利用的就是这种技术。该系统利用摄像头捕捉人脸表情，采用特征点跟踪技术，对眼角、嘴角、鼻孔等人脸特征点进行跟踪。采用刚体补偿技术对特征点的位置进行补偿，然后把这些位置信息通过人脸动作编码系统进行编码，形成一组离散的特征向量。特征向量被输入到分类回归树中，得到判别结果。

双模态情感识别

通过单一途径的信息，比如语音或者脸部表情来判断情感的方式称为单模态情感识别。单模态识别的方法在本质上就存在一些弱点。特别是通过单一模态，某些相似的情感对（Confused Emotion Pair）很难被分开。比如，如果只利用语音信息，生气和惊讶就很难被分开，这是由于它们在声学特征上的相似性导致的。如果我们同时利用脸部表情和语音的信息，就能在某种程度上产生互补的效应，弥补单一模态的不足。这也是目前情感识别方法的主流。

融合各种途径信息的方法有两种: 特征层面上的融合以及决策层面上的融合。所谓特征层面上的融合，就是把语音参数和图像信息放在一起，形成一个合成的特征向量，然后利用模式识别的算法加以分类; 而所谓决策层面上的融合，就是分别将语音参数和图像信息放到两个分类算法中进行分类，然后将分类结果以某种规则的方式结合起来。这两种方法各有优缺点，特征层面上的融合更符合人类识别情感的过程，而决策层面上的融合反映了不同特征对于表现不同情感的重要性的不同。如果能够将两者的优点结合起来，势必能达到更好的效果。我们提出了一种基于决策树的主动学习技术,能够很好地将两者的优点结合起来，通过自动设置不同特征的重要性，使得以前通过单模态识别容易混淆的情感对能被更好地区分开来。

多模态情感识别参透人心

优秀范文