首页 > 范文大全 > 正文

语音狂想曲

开篇:润墨网以专业的文秘视角,为您筛选了一篇语音狂想曲范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

随着Siri以及各式各样的语音识别应用在智能终端上的普及,语音识别早已不再只是一项“实验室技术”。语音识别已变得越来越重要,互联网公司、科技公司正在纷纷开发语音识别应用,以抢占下一代智能语音输入的接口。

14年前,志在语音识别的科大讯飞在合肥悄然成立,当时还被外界讥笑为“草台班子”的这家本土创业公司,如今已经发展成为亚太地区最大的语音上市公司。作为中国语音识别的“领头羊”,科大讯飞的这个标签还能贴多久?在科大讯飞副总裁兼创始人之一江涛看来,科大讯飞的突破点在于,提供语音识别的技术和服务,解放人们的双手。

“草台班子”的摸索

创业之初,科大讯飞希望改变人类使用电脑的方式。但事实证明,时候未到。

上世纪90年代末,语音识别技术已经在全球范围内掀起了一波热潮,科大讯飞也是顺着这股热潮成立的。“彼时,IBM、英特尔等几大主流科技公司也早已开始语音识别技术的研发和商业探索。”江涛告诉《二十一世纪商业评论》(以下简称《21CBR》)。1998年IBM了第一个基于语音识别技术的产品。第二年全球科技十件大事之一便是IBM的语音识别技术,计算机第一次能够进行语音输入。除了IBM,英特尔、摩托罗拉、松下等很多国外巨头也都开始在国内设立语音研发中心,希望在人机交互和信息录入领域抢占先机。

“但是在后来证明,这个技术和产品在当时的条件下是不成熟的。”江涛认为有两个方面原因:一个是当时的语音针对PC,而PC相对于键盘和鼠标这些交互设备比较成熟,语音的需求并不够迫切。另外,“当时整个云计算、移动互联网的环境和体系还没有形成。全是单机,在一台机器上安装一个语音识别系统需要锻炼很久,使用成本太高。”

即便如此,直到2000年前后,中国的语音技术基本都掌握在IBM等大公司手中。而像科大讯飞这样的本土创业公司,空有实验室技术,在当时的环境下不知道该如何面向市场,面向用户。“我们一直到2004年才盈亏平衡,在这个过程中我们没有钱,也不知道该怎么开拓市场,所有人都是技术出身,都没有产业经验。”江涛说。

创业之初,科大讯飞希望改变人类使用电脑的方式。“我们当时做了一个叫做‘畅言2000’的产品。口号是把键盘输入的准确性、语音输入的方便性、手写输入的随意性融合在一起,它可以打开浏览器,打开Word,然后配合手写板输入内容。”这是科大讯飞的第一个产品,一套软件当时的定价是1000多元人民币。“但是去哪里推广,怎么做推广,我们完全不知道。”

随着“畅言2000”以失败告终,苦于推广无门的科大讯飞第一次参加了当年的高交会。“当时华为等一些做电信设备的厂商公司发现了我们,在他们的呼叫中心智能网中间有需要使用语音的地方,比如说语音合成,呼叫中心的语音播报,智能网中间的信息播报等。”很快,迅飞便跟华为、中兴等一些大的厂商对接上,成为它们的语音技术提供商。

“我们后来一想也是这样,一个创业团队没有市场经验,也没有市场能力,没有资金,不可能去做‘2C’的市场,那个时候的条件也不具备。做‘2B’的市场,做自己擅长的部分,把技术提供给合作伙伴,然后合作伙伴去做对应的应用更可行。”江涛说。这是科大迅飞的第一桶金,也是第一个商业模式。“依靠这个模式,我们实现了盈亏平衡。到2004年,我们已经是中国最大的语音技术提供商。”

在尝到了做“技术提供商”的甜头后,2004年,手机彩铃被引进中国,“在没有智能手机的时代,面对几十万首歌,用户在电话里怎么选?”江涛说,为此,迅飞开发了针对音乐的语音搜索,“想下载谁的彩铃,听谁的歌,直接在电话里面语音搜索。”在这个基础上,迅飞进一步把技术应用到跟音乐、彩铃下载和搜索相关的其他领域。“现在联通、电信,还有移动,相关于音乐的语音搜索技术全部由讯飞提供。”江涛说。

基于同样的思路,迅飞开始把语音识别技术扩展到教育领域。“从技术上看,针对这两个领域,迅飞所做的事情主要是语音合成,把语音转换成文字。”江涛告诉《21CBR》,虽然在当时这个技术事实上已经没有门槛,但迅飞的优势在于做“技术提供商”的商业模式和针对细分领域提供的服务。目前,针对音乐和教育领域的收入依然是迅飞营收的主要来源之一。“现在音乐领域每年的收入大概在一个亿左右。”

从技术到服务

语音识别不是完全靠算法能解决的,时间和数据积累才是最大的壁垒。

2008年前后,中国开始发放3G牌照,以苹果、安卓为代表的智能机逐步兴起。“我们觉得这个时候语音技术真正的机会才出现,因为智能手机相对于PC来说,屏幕更小,输入更不方便,语音在人机交互过程中显得更有价值。”江涛说。目前,讯飞所开发的手机应用讯飞语音已拥有超过2亿用户。

“我们现在最大的挑战还是用户的习惯,尤其是中国人觉得对着手机说话太傻了。”江涛说。好在随着苹果、谷歌加上腾讯的微信正在不断地教育用户的使用习惯,越来越多的人开始适应这种跟机器的交流方式。

科大讯飞在移动互联网领域的另一个产品是讯飞输入法。“我们从2011年开始做这个产品,当时讯飞没有任何知名度,没有品牌,完全靠用户口碑来推广。”江涛说。目前,讯飞输入法的用户超过8000万。

尽管移动互联网来势汹汹,江涛和他的团队还是希望把自己定位为“语音服务提供商”。“我们一方面还会持续面向电视机、汽车、地图等合作伙伴提供语音技术,另外一方面也会以输入法这些产品为代表,面向用户提供直接的交互服务和终端产品。”江涛告诉《21CBR》记者。目前,康佳、海尔、创维、海信等电视厂商都采用了迅飞语音识别技术和开发平台。讯飞也与国内主要汽车电子厂商及车厂等建立了合作,包括奇瑞、江淮、上汽、奥迪、德尔福、大陆电子、哈曼等,但这一领域对公司营收的贡献微乎其微。

从技术的角度来看,语音识别在过去20年的发展和进化过程中早已不再拥有高门槛。在外界看来,科大讯飞缺乏足够宽广的护城河——掌握互联网入口的企业百度、腾讯等巨头,都在觊觎语音识别领域。而随着3G网络和智能终端的普及,这些条件又为语音识别打开了一扇新的大门。江涛也认为:“目前,就技术上的发展来讲,语音识别的门槛的确不高,大数据云计算带来了更加开阔的技术可能性和便利。”

但是在未来的实际应用中,语音识别技术依然面临很多困难,“现在,在人配合机器的安静、通畅的情况下可以比较顺畅地实现语音识别,还需要很多约束条件。但是实际运用的外部环境更加复杂,比如说噪声、口音、人的说话习惯,这些都影响语音识别的技术效果,所以这个环节还有很多问题去克服。”江涛告诉《21CBR》记者,只有解决这些更加复杂的问题后,语音识别未来的方向才能是更加智能,更加广泛地代替现有的输入方式和人机交互工具。

“但是对于完整的人工智能来说,现在谈商业化还为时尚早。”江涛向《21CBR》解释道,语音识别不是完全靠算法能解决的,后边的智能分析和数据库密切相关,二者的匹配和系统构建是非常核心的,既包括开发互联网的信息,还包括机器学习,这需要大量的整合和多年的积累。从技术的角度来看,时间和数据积累才是智能语音识别最大的壁垒,“这不是靠开放平台、人才、资金就能解决的。”(插图/董浩然)