语音识别的未来之路

来源：牛股十点半作者：佚名 2016-06-12 17:38:31

中金在线微博

微信加关注扫描二维码
关注
中金在线微信

　　2016年6月2日，有“互联网女皇”之称的玛丽.米克尔在美国Code大会上第21次公布了年度《互联网趋势》报告，阐述了2016年最为重要的全球互联网现象、判断以及发展趋势。

　　

　　报告称，在技术终端和平台方面，持续近十年的以智能手机为核心的移动互联网模式正逐步增速放缓，而在家居、车载和移动场景中，新的以语音为核心的交互模式渐成风口，巨头和创新者纷纷涌入。

　　这份报告的依据是亚马逊的智能音响Echo的被热捧，这款在2014年底推出的基于语音识别的音响再次引发了业内的关注，甚至被喻为未来智能家居的真正入口。

　　语音识别的历史其实已经很久，在PC时代，IBM就搞过语音输入。在智能手机流行之前，金立的语音王就可以实现一些语音控制的功能。

　　而苹果的Siri、谷歌的Google Now和微软的Cortana，都比Echo要早，国内百度也很早就在研发语音识别。

　　那么语音识别为何现在才被认为是未来趋势，它会给我们带来什么呢?

　　一、从Echo说起

　　实际上，Amazon在Echo上的语音技术在2011年就已经起步，其先是收购语音识别公司Yap。

　　Yap成立于2006年，主要提供语音转换文本的服务。

　　2012年，Amazon又收购了语音技术公司Evi，继续加强语音识别在商品搜索方面的应用，不得不提的是，Evi这家公司也曾经应用过Nuance的语音识别技术。

　　2013 年，Amazon继续收购语音技术公司Ivona Software，Ivona是一家波兰公司，主要做文本语音转换，其技术已被应用在Kindle

　　Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中， Echo也是利用了这项技术。

　　而亚马逊自主开发。主要包括够在10英尺甚至更远的地方分辩声音的麦克风阵列技术。

　　由此不难看出，亚马逊很早就已经通过并购与自研的方式进入到语音识别领域，只是此前相当低调而已，更为关键的是，其拥有自己语音识别的核心技术——采用了非线性排列的远程麦克风阵列(7个麦克风)。这使得相比Siri、Google

　　Now、Cortana这些存在于手机的语音助手，Echo最大的优势还在于它超强的听力。

　　而比技术更重要的是应用，苹果的Siri、谷歌的Google

　　Now基本都是面向智能手机这类移动设备，微软的Cortana除了智能手机，还面向传统PC。而这些设备都有其他输入方式，语音并非是有优势的解决方案。语音指令不如点一下鼠标或者动一下手指，输入速度也必比得上键盘。

　　而亚马逊则是通过音响这种取巧的方式来应用，对音响来说，语音控制比拿起遥控器或者手机更方便一些，其实智能家居都是语音控制更方便。

　　好的途径带来更好的市场，Intelligence Research

　　Partners预计，亚马逊已销售出了大约300万台Echo，其中在今年的第一季度就销售了100万台。

　　在技术上，亚马逊并不是很出类拔萃，但是他给语音识别指令遭到了一个好的途径。

　　二，语音识别的真正突破

　　其实，玛丽.米克尔说的东西并不是那么有权威，而凑巧的是，语音识别在最近两年确实取得了很大的突破。

　　前不久，麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》(MIT Technology

　　Review)，评选出了“2016年十大突破技术”。《麻省理工科技评论》称，在过去的一年里，这十项技术均已到达一个里程碑式的阶段或即将到达这一阶段。

　　而语音识别的突破就在其中的第三项，语音接口(Conversational

　　Interfaces)，该技术现已趋于成熟。通过该技术，可将语音识别和自然语言理解相结合，为全球互联网市场创造切实可用的语音接口。

　　百度、谷歌、苹果、Nuance通信公司、Facebook等公司是这一领域的大玩家。

　　这里有一个问题，就是语音识别和语义识别。单纯的语音识别这个东西技术已经很古老，PC时代IBM的语音输入已经20年了，苹果的Siri根源可以追到更古老的军方监听项目。

　　而真正的难度在于语义识别，把语音高正确率的转化成文字还不够，而是要听懂人类在说什么，要表达什么意图，这个才是皇冠上的宝石。

　　而幸运的是，随着近年来人类科技的进步，这方面已经有了很大的突破。

　　突破首先来自于硬件的进步，这几年计算机飞速发展，特别是GPU通用计算发展，人类有了强大的计算能力。一些过去不可能实用的人工智能算法成为可能。

　　人工智能中神经网络与深度学习都取得了很大进步，特别是深度学习算法的应用，大幅度提升了语音识别的正确率，并且提供了语义识别的可能。

　　这方面，国内的百度走得很远，百度语音识别可以做到安静环境下97%准确率，领先正常人的听力。如今，百度通过CNN(卷积神经网络)与LSTM(长短时记忆模型)的混合建模，连接时序分类(CTC)训练已经做到了真实环境，日常非标准语言的精确识别。

　　前几天百度联盟会议上，李彦宏展示了嘈杂环境下百度语音识别对各地方言的识别。

　　这是建立在深度学习对大量语音资料自动学习基础之上的，以前语音识别需要人来控制，现在机器可以自我学习。而且可以理解人的意思。这是革命性的突破。

　　百度甚至在上海的KFC放了一个机器人，和人自由对话，点餐。这不是编程对固定指令的处理，而是人工智能直接与人对话，理解人的语言。

　　这是真正的突破。

　　三、语音识别的未来

　　正确识别语音，完成输入和控制，这个东西有一定前途，但是限于其他模式不方便的时候，譬如智能家居，汽车上面，距离太远不便动手，或者手在忙着的时候。

　　而语义理解，人机对话则是革命性的东西。

　　这个东西集合上简单的机器控制，意味着人类大部分服务业与窗口行业都可以被替代。

　　未来，KFC可能只要现在10%的人手，复杂把原料按照规定投进机器就可以了。点餐加工送餐收款全部由人工智能完成。

　　一家超市，除了保安需要人类以外，可以用无人仓库加人工智能收银员。

　　语音识别的未来将我们的生活将发生颠覆性的改变。而把握住这个机会的企业，也将成为下一个时代的弄潮儿。

责任编辑：cnfol001 【下载中金财经客户端】