首页 > 范文大全 > 正文

动口不动手 Siri技术大起底

开篇:润墨网以专业的文秘视角,为您筛选了一篇动口不动手 Siri技术大起底范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

在斯堪的纳维亚,siri是Sigrid的另外一种写法,常用于婴儿或成年女性的昵称或名字,相当于英语中的Annie。2011年秋天之前,Siri几乎无人知晓,而在iPhone 4S内置的语音助手以此为名后,这个名字现在已炙手可热。以人名来命名,似乎在暗示着用户,她不仅仅是一项智能语音系统,更是你的贴身朋友。

被神话的Siri

网上流传着许多调侃Siri的段子。比如用户说:“我累了。”Siri则答:“听我的,立刻放下iPhone去打个盹,我就在这儿等你。”多么体贴人。再比如用户问:“你喜欢跟我在一起吗?”Siri则答:“我还是不说比较好。”机智而幽默。大量这类调侃的段子,把Siri的智能给神话了,似乎它无所不知无所不懂。

一般人对人工智能的发展抱有过高的期待,但实际上现在的不少人工智能产品,从某种意义上来说就是一个骗局(Jeff)。大部分所谓的人工智能产品,其实就是人工预先编制好的脚本而已,只不过脚本编得很巧妙,将可能遇到的各种答案都收罗进去(与单机游戏中的NPC对话时就是这样)。或者有一个大规模的数据库(类似谷歌的搜索建议),有的可能会涉及到一些混乱笨拙的模糊决策、神经网络和遗传算法系统,但这些“人工智能”程序功能非常有限,不可能帮助我们完成日常工作。

所以,在Siri官方网站上,苹果宣传(承诺)Siri所能做的,无非就是增加提醒、发送短信、询问天气、查信息、发邮件等等。这些功能实际是不开放的,只是针对手机和网络的操作。总之,Siri没那么神,它并不能理解所有东西,各种貌似智能化的Siri调侃,只不过是娱乐罢了。

Siri技术的台前幕后

Siri就像iPhone手机中内嵌的一个声控软件,它让我们不用手操作,只需用嘴对着手机命令,就可以完成搜寻资料、查询天气、设定手机日历、设定闹铃等诸多服务。

虽然真正意义上的智能产品还没有出现,但是与同类产品相比,Siri的智能化算是相当高的了,它能在一定程度上理解用户所说的话、所的命令。不要小看这点,iPhone上千万的用户,各人有不同的语音,各人的命令用语也不尽相同,要想正确理解并执行,决非易事。那么Siri是怎么做到的呢?

从操作流程看,Siri可分为三大部分:1.用户启动Siri并对着iPhone的麦克风说话,这些语音被录制并压缩;2.语音数据经由因特网传到苹果的数据处理中心;3.数据中心对输入的语音进行一系列分析处理,理解用户真正的意图,并选择最匹配的服务(如搜索、地图等)返回给用户。

如果从程序员的角度来看,Siri技术包含了三大层面:语音到文本分析器、语法分析器及服务提供者。Siri的技术框架可以划分为5个子系统,各系统各司其职,遵循着一定的执行顺序,以此来理解用户的真正意图并提供有用服务。

1.输入系统

Siri支持多模态输入,除去众所周知的语音输入,同时也支持用户文本输入、GUI界面触控操作等。

2.活跃本体

这里可理解为Siri整个系统执行的一个具体环境和场所。

3.执行系统

这里是Siri系统最有技术含量的部分,它可以细分为三个主要部件:语言解释器、会话流控制器和任务控制器。语言解释器将用户输入字符解析为语义表,语义表输入到会话流控制器,会话流控制器根据语义协同任务流控制器一起决定Siri下一步应该做什么或者说什么。

4.服务系统

这里集成了苹果的多种服务,供Siri调用。

5.输出系统

将最终提供的服务结果或者在会话过程的中间内容展示给用户,支持语音、电邮、文本等多模态输出。

语音识别—Siri如何听人说话

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。1920年代生产的Radio Rex玩具狗可能是最早的语音识别器,当叫这只狗的名字时,它能够从底座上弹出来。而语音识别正是Siri智能语音的核心组成部分之一。

人说话发出的是声波,当前的计算机技术还不能直接识别,需要将它转化成计算机可识别的二进制编码、字符序列等,即语音识别技术中所谓的Speech-Text(语音到文本)。

示意图很简单,但实际上这是一个比较复杂的过程。理论上,所有人在正确发出同一个单词时,它的声波起伏频率(频谱)是相近的,这便是这个单词的声音特征。

提取出声音特征,与声音模型库中的数据进行比较,找出它所对应的单词,即完成了语音到文本的识别过程。不过考虑到录音时周边有许多的噪音干扰(比如电视声、汽车喇叭、小孩争吵等),一般在提取声音特征前还会对声音进行“前端处理”,部分消除噪声和不同说话人带来的影响,常用的技术有端点检测(将语音和非语音信号时段区分开)、语音增强等。

语义识别—Siri如何听懂人话

将语音转换为文本后(Speech-to-Text),事情还没有结束。因为,文本本身对计算机来说只是一堆混乱的字符,Siri识别出字符串“Send a message……”,但什么意思它现在并不懂,接下来语法分析器(Grammar analyzer)就浓墨登场了。

迄今为止,语法分析技术并没有太大的进步,基本上还是通过在字符串中查找某个关键短语,并以此建立简单模型来理解用户想要的目标。因为Siri限定了目标,主要就是针对手机和网络操作这个区域,所以它的语义分析结果相对能比较准确。比如上例中的字符串,包含了message(信息)这个关键词,因此Siri能将关注点锁定在短信上,根据一系列计算及与语料库比照,从而理解出用户想要发送短信的意图。

服务调用—Siri如何向人回话

理解了用户的意图,接下来的事情就容易得多了。苹果集成了大量的前台及后台服务,打电话、发短信、查天气、找地图、翻日历,等等,直接调用即可。Siri所不同的是,以前这些操作我们需要手工输入,现在只需要用嘴巴说说而已,只是输入方式改变,但本质上并没有不同。

Siri对用户命令的回复,还有一种语音形式,比如各种调侃Siri的游戏中,你对着它说话,它同样也以人类的声音回复你。这个即语音合成技术,是Speech-to-Text的逆向操作Text-to-Speech(文本到语音),简称TTS。相信这个大家不会陌生,微软Windows系统就自带TTS引擎,我们经常跟它打交道。

上面分析的主要是Siri前台技术,它涉及到Siri如何理解及回馈用户的操作,而真正的执行者是隐藏在其后的Siri强大的后端。这些后台技术没有酷炫的外面,也很难形象地描绘,不过通过我们已经熟知的一些应用,还是能对它们有所感觉,这些包括:以Google为代表的网页搜索技术,以Wolfram Alpha为代表的知识搜索技术,以Wikipedia为代表的知识库技术,以Yelp为代表的问答以及推荐技术,等等。