首页 > 范文大全 > 正文

惠州方言发音的唇位可视技术研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇惠州方言发音的唇位可视技术研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:【目的/意义】传统的方言语音词典或多媒体语料库只能听到方言语音,不能直接观察到发音时人脸器官动态变化的情况,无法获得方言发音的直观视觉印象。本文提出了一种根据惠州方言发音实时展示唇部动态变化的方法。【方法/过程】本文首先标注出唇部的特征点,对发音人发音时唇部特征点变动情况进行记录,通过与普通话发音的对比,将惠州方言发音唇部变化归纳为八种基本唇形。提出通过唇形变化等效字集将惠州方言唇位变化转换为对应的普通话发音唇位变化。在SitePal平台上,利用普通话发音唇位可视功能模拟出惠州方言发音唇位可视效果。【结果/结论】增加唇位可视效果后用户能直接地观察到惠州方言发音时唇位的变化情况,便于用户模仿发音,提高了惠州方言的学习效率,为保护和传承惠州文化提供一种新的技术手段。

关键词:语音词典;惠州方言;唇位可视;语音可视化;SitePal

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)02-0195-04

A Visualization Technology Study on the Lip-position of Huizhou Dialect pronunciation

WANG Jian-hai,CHEN Shu-huan

(School of Information Science and Technology,Huizhou University,Huizhou 516007,China)

Abstract:Traditional Dialect Voice Dictionary or multimedia corpus can only hear dialect speech but cannot be directly observed situations of dynamic changes of pronunciation in the face, unable to obtain the direct visual impression of dialect pronunciation. This paper presents a method based on Huizhou dialect pronunciationreal-timedisplay of dynamic changes of lip.This paper marks feature points of the lips, recording changes of feature points of speakers’ lip and comparing them with Mandarin. Lip position changes of Huizhou dialect pronunciation can be filed into eight basic lip positions. It puts forward that the corresponding lip position changes of Mandarin can be converted from lip position changes of Huizhou dialect pronunciation by lip change equivalent word set. Based on the SitePal platform, the visual effect of the lip position of Huizhou dialect pronunciation is simulated by using the visual function of Mandarin pronunciation.By increasing the visual effect of lip-position, the users directly observe the visual changes of lip position of Huizhou dialect pronunciation. It is convenient for the user to imitate the pronunciation of Huizhou dialect which improves learning efficiency of Huizhou dialect and provides a new technological means for the protection and inheritance of Huizhou culture.

Key words:pronouncing dictionary;the Huizhou dialect;lip visualization;speech visualization;SitePal

1 概述

惠州方言,又Q“惠州话”,是一种通行于以惠州市惠城区为中心的地方方言。惠州方言保留了大量的古汉语成分,汇集了惠州地区人民千百年来形成的生存智慧,蕴含有丰富的内涵,是一种不可再生的非物质文化遗产。改革开放以来,惠城区经济日益发达、外来人口逐渐增多,在共同语和周边方言的冲击下,惠州方言以及其附近的各类小方言已日益式微[1]。为了抢救这一日益濒危的方言,有学者编著有纸质版的惠州方言词典(语料库)[2],但纸质版本惠州方言词典采用了国际音标记音,通常只能由经过专门训练的方言研究人员才能通过国际音标正确拼读出方言语音,更难以理解其语义特征[3],为学习者带来了很大的学习负荷,限制了惠州方言的传承。随着计算机技术介入,大规模地、系统地收集、存储、处理方言语音语料成为了可能,相应的许多学者也提出了各种方言语音词典或方言多媒体语料库的设计方案。通过这些设计可再现方言真实口语语音,但读者还是难以获得方言发音的直观视觉印象。也有学者为方言电子词典(多媒体语料库)增加了可视化的功能,但通常展现的是物理学语音方面的图谱,如:张绍麒等[4]设计的方言电子词典显示的是语音文件的时域波形图,李斌[5]设计的方言电子词典通过可视化技术标注了音节边界、峰值点、声韵母和声调信息。这些物理学意义上的语音图谱内容深奥,不直观,一般的方言电子词典用户或学习者难以通过这些科学图谱获得方言发音的感性认知,也难以直接利用其学习方言发音。

唇位可视也称为唇形模拟,是一种展现模拟发音人唇、牙、舌等部位在发音时变化情况的人脸动画技术。借助唇形模拟学习者可以直接观察到方言发音时唇位的变化,便于模仿,提高了方言的学习效率。唇形模拟的主流技术有基于文本驱动、基于自然语音驱动和音视频混合驱动三种[6],以基于文本驱动的技术最为成熟,目前已有产品推出,如SitePal、CrazyTalk、TalkingPhoto等[7]。但现有产品的驱动语种是英语、汉语、法语、西班牙语等大语种,无法由地方方言直接驱动。

本文提出了一种根据惠州方言发音时展示唇部动态变化的方法,将复杂的惠州方言发音唇形变化归纳为少数几个基本唇形,通过唇形变化等效的方法,将惠州方言发音时的唇位变化转变为等效的普通话发音唇位变化,并在基于文本驱动的唇形模拟平台上实现出唇位可视效果。

2 惠州方言发音的唇位可视建模

为了实现对唇位可视的建模须对唇部进行参数化和标准化。MPEG-4是采用了基于对象编码的方式对包括唇部的人脸可视部位进行了细致的定量描述[8],涉及人脸编码的主要有两个参数集:人脸定义参数集(FDP)和人脸运动参数集(FAP)。两个参数集总共定义了84个特征点,分成脸、眼、鼻、耳、唇等若干组,覆盖了整个人脸面部并具有较高的可移植性。

本文采用MPEG-4人脸模型规范的唇部特征点对惠州方言发音的唇部特征进行定量描述。MPEG-4参数集中对唇部共定义了18特征点,见图1,通常可分为4组[9]。利用18个特征点基本能满足描述惠州方言发音时的唇形特征的需求。

第1组:外唇边缘定义点,共2个,分别为:8.3、8.4;

第2组:内唇边缘定义点,共2个,分别为:2.4、 2.5;

第3组:外唇口型张合定义点,共8个,分别为:8.6、8.9、8.1、8.10、8.5、8.7、8.2、8.8;

第4组:内唇口型张合定义点,共6个,分别为:2.7、2.2、2.6、2.8、2.3、2.9。

为了记录惠州方言发音的真实唇部特征及其变化情况,本研究对发音人发音时的唇部变化进行了摄像记录,并人工标注出图像中的特征点。具体方法是,首先,用高清摄像机拍摄发音人未发音时的初始唇形,此静态唇形影像是后续特征点标注的基础。然后,再让发音人逐字对照文本语料进行发音,记录下发音人发音过程中的唇形变化过程。为了便于对唇部进行标记,可参照图1特征点位置,对在发音人的唇部涂抹色彩标记。最后,将获得的影像逐帧标记出唇位特征点。用同样的方法可记录普通话发音人发音时的唇部特征及其变化。获得两类发音的唇形特征点数据集后,可统计分析二者发音时唇形变化的区别,并寻找二者对应的匹配关系。

以往的研究发现人类唇部运动及唇部运动的组合可构成发音的各类唇形,共可归纳为八种基本唇形,分别是:张唇、闭唇、圆唇、升上唇、降下唇、突唇、翘唇和收缩嘴角[10]。本研究通过对采集得到的惠州方言发音人发音唇形变化特征的数据分析发现,惠州方言与普通话的声母、韵母发音时的唇形变化特征均符合上述规律。更复杂的词语或句子的发音唇形变化则可由上述八种基本口型通过排序及线性组合构成[11]。表1,列举了惠州方言和普通话发音时由唇形变化构成的口型及其组合。

设,唇形变化集为:

[V={vi|i=1…8}] (1)

其中,[V]中元素分别代表八种基本唇形,分别是:张唇([v1])、闭唇([v2])、圆唇([v3])、升上唇([v4])、降下唇([v5])、突唇([v6])、翘唇([v7])和收缩嘴角([v8])八种基本唇形。

对于一个词句的发音,其唇形变化可表示为一个由[n]项与时间先后顺序相关的基本唇形有序集:

[P={s1=(vi,t1),s2=(vi,t2),…,sn=(vi,tn)}] (2)

其中,[s1,s2,…,sn]为在时间序列[ti]时刻的发音字。则发音字集可表示为:

[S={si|i=1…n}] (3)

定义1:如果两个发音字集不完全相同,但生成的基本唇形有序集却完全相同,则称这两个发音字集互为唇形变化效果等效字集,简称等效字集。即:

如果存在[S1≠S2],但[P1=P2],则[S1?S2]。

例如,惠州方言语句“阿爸好中意讲古仔”(爸爸很喜欢讲故事),发音时其基本唇形有序集为:

[PH={s1=(v5,t1),s2=(v2,t2),…,s8=(v5,t8)}]

其中,[SH={si|i=1…8}={阿,爸,好,中,意,讲,古,仔}]

通过对比,上述惠州方言词句发音唇形变化效果等效于普通话语句“阿爸好正意光古杰”。即:

[PM={s1=(v5,t1),s2=(v2,t2),…,s8=(v5,t8)}]

其中,[SM={si|i=1…8}={阿,爸,好,正,意,光,古,杰}]

根据定义1,[SH≠SM],但[PH=PM],则[SH?SM]。

即:惠州方言语句“阿爸好中意讲古仔”与普通话语句“阿爸好正意光古杰”对于唇形变化效果等效,二者互为等效字集。因此,可将上述普通话语句输入到文本驱动型的唇形模拟平台,得到的唇形变化效果与惠州方言发音的唇形变化效果相同。

3惠州方言发音的唇位可视实现

惠州方言发音的唇位可视实现可借助现有的唇形模拟平台。典型的唇形模拟平台有SitePal、MS Agent、CrazyTalk、Talking Photo等。各唇位模拟平台的对比见表2[12,13]。通过对比发现,SitePal采用了Morphing动画技术,可模拟并合成出较为真实的人脸动画,具有丰富的Model库并可自建Model角色,其采用Text-to-Speech引擎产生语音输出,可由文本直接驱动发音,支持的语种包括汉语普通话在内,并能自动生成包括唇形动态变化在内的人脸动画,生成的唇形模拟自然程度比较高,具有较强的真实感。此外,SitePal生成的动画可直接嵌入网页或系统,兼容性好,是进行唇形模拟的较为理想的平台。

由SitePal构建惠州方言唇形模拟的步骤是:

1)设置“Model”(角色):在SitePal的模型库选择Model,配置Model的脸部器官参考点。由于模拟的主要是唇形,因此参考点的配置可依据MPEG-4参数集选择对应的唇位特征点。

2)生成等效发音字集。依据采集得到的惠州方言发音唇形化特征的数据,生成惠州方言与普通话的等效发音字集。

3)生成并优化唇形模拟动画。将普通话的等效发音字集输入SitePal平台,由平台生成唇形模拟结果数据集并将此数据集加载在Model上,得到唇形模拟动画。实时观察动画效果,并可通过微调唇位特征点位置优化动画效果。

4)唇形模拟动画。SitePal具有网页和本地等多种动画功能,可嵌入宏代码在网页上,或直接用Swf格式播放器播放本地动画文档。

本文采用人工评价的方法对唇位可视效果进行了评价。评价人观察动画后从以下四个标准中选择一个作为评价结果。

完美。完美是指,唇动画连续自然,符合视觉习惯,与发音配合完美,能准确反映惠州方言的发音的唇部变化特性。

可接受。可接受是指,唇动画连续性尚可,基本符合视觉习惯,与发音配合略有迟滞,基本能反映惠州方言发音的唇部变化特性。

一般。一般是指,唇部动画能感觉到明星的断续感,勉强符合视觉习惯,与发音配合有明显的迟滞,勉强能分辨出是惠州方言发音的唇部变化特性。

不可接受。不可接受是指,唇部动画断续严重,不符合视觉习惯,与发音完全不能配合,不能分辨出是何种语言在发音。

本文安排了13名以惠州方言为母语的评测员按照上述四种评价标准对惠州方言发音的唇形模拟动画进行评测。13个有效评价中,选择“完美”、“可接受”、“一般”、“不可接受”的数量分别是7、4、2、0,即所占百分比分别为:53.8%、30.8%、15.4%、0%。可见,由本文方法得到的惠州发言唇形模拟动画人工评价的结果在“完美”和“可接受”之间。唇动画较为连续自然,符合视觉习惯,与发音配合也基本没有迟滞。评价人反馈的主要问题是部分唇形动画与惠州方言发音时的唇部变化不吻合。这主要是部分惠州方言的字词缺少与普通话的等效发音字集造成的。此外,部分惠州方言发音与普通话发音的唇形在变化幅度上存在差异,例如有些发音唇张角大小差异较大。

4 结语

本文从惠州方言唇部的特征点入手,通过对惠州发言发音时唇部特征点的记录、对比与分析,发现惠州方言发音时发唇变化可归纳为少数基本唇形,并可将惠州方言唇位变化通过唇形变化等效字集转化为普通话发音唇位变化。本文利用SitePal平台的普通话发音唇位可视功能模拟出了惠州方言发音时唇位变化的可视化效果。由人工评价结果看来,采用本文方法生成的惠州方言唇形模拟动画效果连续自然,符合视觉习惯,发音配合良好,大部分字词的唇形模拟与真实惠州方言发音时唇位变化吻合,效果尚属满意。在下一步的工作中,仍需跟踪、分析更多的惠州方言唇部特征点,扩大基本唇形集,使得等效模型更加精确;并尝试采用SitePal平台支持的其他语种如英语、法语、日语、西班牙语等来生成等效字集来模拟惠州方言发音时的唇位变化。

参考文献:

[1] 陈淑环,盘文伟.惠东濒危畲语的活力与保护[J].惠州学院学报,2013(5):15-20.

[2] 陈淑环.《惠州方言词典》评介[J].惠州学院学报(社会科学版),2008(1):118-122.

[3] 陈淑环.惠州方言“脚”的语义网络及其文化特征[J].惠州学院学报,2016(02):28-32+37.

[4] 张绍麒,张文峰,姜岚,等.计算机辅助方言研究系统的建设与胶东方言电子语音语料库的研制[J].鲁东大学学报(哲学社会科学版),2006(3):120-123.

[5] 李斌.用Elan建设单点方言多媒体语料库[J].方言,2012(02):178-190.

[6] UZ B, GUDUKBAY U, OZGUC B. Realistic speech animation of synthetic faces[C]//Computer Animation 98. Proceedings, 1998: 111-118.

[7] 张家华,张剑平.口型模拟技术及其在网络课程中的应用探索[J].现代教育技术,2010,20(3):35-38.

[8] TEKALP A M, OSTERMANN J. Face and 2-D mesh animation in MPEG-4[J]. Signal Processing Image Communication,2013,15(4C5): 387-421.

[9] 刘小丹,黄翠翠,齐映雪.日语学习软件中假名驱动口型动画技术研究[J].电化教育研究,2011(12):76-80.

[10] MELISSA E, HACOPIAN N, LADEFOGE P. Dissection of the speech production mechanism[M]. Los Angeles: UCLA,2002.

[11] 李皓,陈艳艳,唐朝京.唇部子运动与权重函数表征的汉语动态视位[J].信号处理,2012(03):322-328.

[12] K GOVINDASAMY M. Animated pedagogical agent: a review of agent technology software in electronic learning environment[J]. Journal of Educational Multimedia and Hypermedia, 2014, 23(2): 163-188.

[13] WAI L C, SOURIN A. Setting Cyber-Instructors in cyberspace[C]//Cyberworlds (CW), 2010 International Conference on, 2010: 314-318.