首页 > 范文大全 > 正文

浅谈语音处理技术

开篇:润墨网以专业的文秘视角,为您筛选了一篇浅谈语音处理技术范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:语音识别是一个多学科交叉的边缘学科,它需要语言学、心理学、工程和计算机等领域的专业知识。不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式等方面进行研究。

关键词:语音用户界面;VoiceXML;语音技术

中图分类号:G202文献标识码:A文章编号:1009-3044(2007)12-21612-01

The Tray Talks about the Technology of Pronunciation Treatment

BAO Yuhong1,CAO Zhong2

(1.The Occupation Tec College of Changji Computer Department,Changji 831100,China;2.The Occupation Tec College of Changji,Changji 831100,China)

Abstract:Voice recognition is a multidisciplinary cross frontier branches of science,it needs the field professional knowledges such as linguistics,psychology, project and computer.Be going to be in progress to voice recognition and the speech synthesis technology studying,to want to be in progress to person in the field of pronunciation passage lower interactive mechanism, behavior way etc.too studying not only.

Key words:VUI;VoiceXml;Voice Technology

1 引言

语音处理技术是语音用户界面设计和开发的基础,为了有效的设计语音界面,我们应该也必须了解语音处理技术的基本概念和发展现状。主要包括语音合成、自动语音识别、双频多音和打断功能几个方面。

1.1语音合成技术

语音合成是人机语音交互的一个重要组成部分,它赋予了机器“说”的功能,并且目的是让机器象人那样说话。在20世纪60年代后期到20世纪70年代后期,实用的英语语音合成技术系统就已经首先被开发出来,随后各种语言的语音合成系统也相继被开发出来,包括中文,如清华大学的新华音霸KingVoice1.0[7]。现在语音合成技术己经能够实现任意文本的语音合成。语音合成技术的应用领域十分广泛,如:电信服务、自动报时、报警、公共汽车或电车自动报站、电话查询服务业务、语音咨询应答系统,打印出版过程中的文本校对、电子邮件、各种电子出版物的语音阅读等。这些应用都已经发挥了很好的社会效益。

文语转换技术TTS(Text to Speech)是语音合成技术中的一类,也是语音合成技术的主要方向。TTS是指通过一定的硬件、软件将文本转换为语音,并由计算机或电话语音系统等输出语音的过程,并尽量使合成的语音具有良好的自然度与可懂度[8]。使用该技术,业务提供者不用预先录制业务语音,就可以直接播放文本信息,满足信息的动态性和实时性的需求。文语转换系统能够提供一个良好的人机交互界面,可以用于各种智能系统,如信息查询系统,自动售票系统;也可作为残疾人的辅助交流工具,如可以用作盲人的阅读工具或作为聋哑人的代言工具;从长远看,文语转换系统还可以用于通信设备或一些数字产品中,如手机和PDA等,而且韩国己经推出了TTS功能手机。

文语转换系统的三个核心部分是文本分析、韵律控制和语音合成这三个模块。

其结构如图1所示。

图1 文语转换结构模型

1.1.1文本分析

文本分析的主要功能就是使计算机能够识别文字,并根据文本的上下文关系在一定程度上对文本进行理解,并知道要发什么音、怎样发音,并将发音的方式告诉计算机,甚至还需要让计算机知道文本中的词、短语、句子,以及抑扬顿挫。文本分析的工作过程可以分为四个主要步骤;

(1)将输入的文本规范化。用户可能的拼写错误将在这个过程中被处理,并将文本中出现的一些不规范或无法发音的字符过滤掉;

(2)分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式;

(3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式;

(4)文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后继模块进一步处理并生成相应的信息。

1.2.1韵律控制

任何人说话都有韵律特征,有不同的声凋、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征,而韵律参数则包括了能影响这些特征的声学参数,如:基频、音长、音强等。最终系统能够用来进行语音信号合成的具体韵律参数,还要靠韵律控制模块。

1.3.1语音合成

文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法,其中最具代表性的是基音同步叠加法(PSOLA)。其核心思想是,直接对存储于音库的语音运用PSOLA算法来进行拼接,从而整合成完整的语音。然而,基于波形拼接方法的系统有一个致命缺点,就是它的音库非常庞大,需要占据较大的存储空间。这对系统推广到掌上电脑或一些小的终端设备上非常不利。另外,在拼接时,两个相邻的声音单元之间的音谱的不连续性也容易造成音质的下降。目前,解决这些问题较好的途径是把基于规则的波形拼接技术和参数语音合成方法结合起来。

1.2自动语音识别ASR(Automatic Speech Recognition)

自动语音识别(ASR)就是让机器具有“听”的功能。它是计算机系统接收人的语音输入并返回对应于该语音输入的单词、短语或数字的过程。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分。

(1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,从而得到最佳的识别结果。

(3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别能力。

1.3双音多频

双音多频DTMF(Dual Tone Multi-Frequency)信令,已经使用在全世界范围内的按键式电话机上,因其提供更高的拨号速率,迅速取代了传统转盘式电话机使用的拨号脉冲信令。近年来DTMF也应用在交互式控制中,诸如语言菜单、语言邮件、电话银行和ATM终端等。双音多频(DTMF)系统通过电话网络中的硬件和软件对按键式电话的键盘输入进行翻译,实现音频播放。每个按键都能产生一个可被识别的独一无二的音频。该系统使得用户可以使用电话键盘将数字信息输入VoiceXML应用程序,并且由程序负责接受和理解这此数字信息。

1.4打断功能

用户通过双音多频(DTMF)输入或者语音输入来中断提示信息的播放,这种功能称为打断功能,这种打断功能有着非常重要的作用。有效的打断方案的目的是要最大限度地缩短最终用户请求停止播放提示到系统实际停止播放提示之间的时间。打断响应时间大约为几百毫秒或更短。

由于大多数语音门户结构均通过电话资源来支持DTMF,因此通过这个界面来传递TTS的输出很容易支持有效的打断机制。但是,对语音打断机制的支持在大多数情况下可、如DTMF打断机制那样有效。语音打断机制要求有一个活动ASR资源和TTS资源连接到相同的端日,连接到相同端口后,当提示播放时,用户发出的语音命令就可以“立即”被识别。当用户的语音命令被认定为有效命令时,语音处理器就被告知停止提示。

2 结束语

语音识别技术是2000年至2010年信息技术领域十大重要技术之一,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别是模式识别的一种,它是让机器通过识别和理解过程将语音信号转变成相应的模型参数。作为一个专门的研究领域,语音识别又是一门交叉学科。

参考文献:

[1]顾良,刘润生.改进汉语数码语音识别中的语音特征提取性能[J].电路与系统学报,1997,2(4):1-6.

[2]姚涵珍,陆文秀.TTS中文语音合成技术的研究与实践[J].天津科技大学学报,2004, 3,Vo1.19,No.l,65-67.

[3]刘占军,计算机语音系统软件的研究与开发[J].计算机应用,2001.5,Vol.21.No.5,67-68.

“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”