动口不动手 Siri技术大起底(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇动口不动手 Siri技术大起底范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

在斯堪的纳维亚，siri是Sigrid的另外一种写法，常用于婴儿或成年女性的昵称或名字，相当于英语中的Annie。2011年秋天之前，Siri几乎无人知晓，而在iPhone 4S内置的语音助手以此为名后，这个名字现在已炙手可热。以人名来命名，似乎在暗示着用户，她不仅仅是一项智能语音系统，更是你的贴身朋友。

被神话的Siri

网上流传着许多调侃Siri的段子。比如用户说：“我累了。”Siri则答：“听我的，立刻放下iPhone去打个盹，我就在这儿等你。”多么体贴人。再比如用户问：“你喜欢跟我在一起吗?”Siri则答：“我还是不说比较好。”机智而幽默。大量这类调侃的段子，把Siri的智能给神话了，似乎它无所不知无所不懂。

一般人对人工智能的发展抱有过高的期待，但实际上现在的不少人工智能产品，从某种意义上来说就是一个骗局（Jeff）。大部分所谓的人工智能产品，其实就是人工预先编制好的脚本而已，只不过脚本编得很巧妙，将可能遇到的各种答案都收罗进去（与单机游戏中的NPC对话时就是这样）。或者有一个大规模的数据库（类似谷歌的搜索建议），有的可能会涉及到一些混乱笨拙的模糊决策、神经网络和遗传算法系统，但这些“人工智能”程序功能非常有限，不可能帮助我们完成日常工作。

所以，在Siri官方网站上，苹果宣传（承诺）Siri所能做的，无非就是增加提醒、发送短信、询问天气、查信息、发邮件等等。这些功能实际是不开放的，只是针对手机和网络的操作。总之，Siri没那么神，它并不能理解所有东西，各种貌似智能化的Siri调侃，只不过是娱乐罢了。

Siri技术的台前幕后

Siri就像iPhone手机中内嵌的一个声控软件，它让我们不用手操作，只需用嘴对着手机命令，就可以完成搜寻资料、查询天气、设定手机日历、设定闹铃等诸多服务。

虽然真正意义上的智能产品还没有出现，但是与同类产品相比，Siri的智能化算是相当高的了，它能在一定程度上理解用户所说的话、所的命令。不要小看这点，iPhone上千万的用户，各人有不同的语音，各人的命令用语也不尽相同，要想正确理解并执行，决非易事。那么Siri是怎么做到的呢？

从操作流程看，Siri可分为三大部分：1.用户启动Siri并对着iPhone的麦克风说话，这些语音被录制并压缩；2.语音数据经由因特网传到苹果的数据处理中心；3.数据中心对输入的语音进行一系列分析处理，理解用户真正的意图，并选择最匹配的服务（如搜索、地图等）返回给用户。

如果从程序员的角度来看，Siri技术包含了三大层面：语音到文本分析器、语法分析器及服务提供者。Siri的技术框架可以划分为5个子系统，各系统各司其职，遵循着一定的执行顺序，以此来理解用户的真正意图并提供有用服务。

1.输入系统

Siri支持多模态输入，除去众所周知的语音输入，同时也支持用户文本输入、GUI界面触控操作等。

2.活跃本体

这里可理解为Siri整个系统执行的一个具体环境和场所。

3.执行系统

这里是Siri系统最有技术含量的部分，它可以细分为三个主要部件：语言解释器、会话流控制器和任务控制器。语言解释器将用户输入字符解析为语义表，语义表输入到会话流控制器，会话流控制器根据语义协同任务流控制器一起决定Siri下一步应该做什么或者说什么。

4.服务系统

这里集成了苹果的多种服务，供Siri调用。

5.输出系统

将最终提供的服务结果或者在会话过程的中间内容展示给用户，支持语音、电邮、文本等多模态输出。

语音识别—Siri如何听人说话

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。1920年代生产的Radio Rex玩具狗可能是最早的语音识别器，当叫这只狗的名字时，它能够从底座上弹出来。而语音识别正是Siri智能语音的核心组成部分之一。

人说话发出的是声波，当前的计算机技术还不能直接识别，需要将它转化成计算机可识别的二进制编码、字符序列等，即语音识别技术中所谓的Speech-Text（语音到文本）。

示意图很简单，但实际上这是一个比较复杂的过程。理论上，所有人在正确发出同一个单词时，它的声波起伏频率（频谱）是相近的，这便是这个单词的声音特征。

提取出声音特征，与声音模型库中的数据进行比较，找出它所对应的单词，即完成了语音到文本的识别过程。不过考虑到录音时周边有许多的噪音干扰（比如电视声、汽车喇叭、小孩争吵等），一般在提取声音特征前还会对声音进行“前端处理”，部分消除噪声和不同说话人带来的影响，常用的技术有端点检测（将语音和非语音信号时段区分开）、语音增强等。

语义识别—Siri如何听懂人话

将语音转换为文本后（Speech-to-Text），事情还没有结束。因为，文本本身对计算机来说只是一堆混乱的字符，Siri识别出字符串“Send a message……”，但什么意思它现在并不懂，接下来语法分析器（Grammar analyzer）就浓墨登场了。

迄今为止，语法分析技术并没有太大的进步，基本上还是通过在字符串中查找某个关键短语，并以此建立简单模型来理解用户想要的目标。因为Siri限定了目标，主要就是针对手机和网络操作这个区域，所以它的语义分析结果相对能比较准确。比如上例中的字符串，包含了message（信息）这个关键词，因此Siri能将关注点锁定在短信上，根据一系列计算及与语料库比照，从而理解出用户想要发送短信的意图。

服务调用—Siri如何向人回话

理解了用户的意图，接下来的事情就容易得多了。苹果集成了大量的前台及后台服务，打电话、发短信、查天气、找地图、翻日历，等等，直接调用即可。Siri所不同的是，以前这些操作我们需要手工输入，现在只需要用嘴巴说说而已，只是输入方式改变，但本质上并没有不同。

Siri对用户命令的回复，还有一种语音形式，比如各种调侃Siri的游戏中，你对着它说话，它同样也以人类的声音回复你。这个即语音合成技术，是Speech-to-Text的逆向操作Text-to-Speech（文本到语音），简称TTS。相信这个大家不会陌生，微软Windows系统就自带TTS引擎，我们经常跟它打交道。

上面分析的主要是Siri前台技术，它涉及到Siri如何理解及回馈用户的操作，而真正的执行者是隐藏在其后的Siri强大的后端。这些后台技术没有酷炫的外面，也很难形象地描绘，不过通过我们已经熟知的一些应用，还是能对它们有所感觉，这些包括：以Google为代表的网页搜索技术，以Wolfram Alpha为代表的知识搜索技术，以Wikipedia为代表的知识库技术，以Yelp为代表的问答以及推荐技术，等等。

动口不动手 Siri技术大起底

优秀范文