据国外媒体的报道,当人工智能专家吴恩达(Andrew Ng)在去年5月出任百度公司的首席科学家时,他对自己的团队和位于加州桑尼维尔的实验室基本上守口如瓶,但他还是对智能手机时代更好的语音识别技术表达出了浓厚的兴趣。百度在日前公布了吴恩达加盟百度之后的首个研究成果
据国外媒体的报道,当人工智能专家吴恩达(Andrew Ng)在去年5月出任百度公司的首席科学家时,他对自己的团队和位于加州桑尼维尔的实验室基本上守口如瓶,但他还是对智能手机时代更好的语音识别技术表达出了浓厚的兴趣。
百度在日前公布了吴恩达加盟百度之后的首个研究成果。吴恩达和他的10人语音识别研究团队(由阿瓦尼•汉努恩(Awni Hannun)负责)近日在美国康奈尔大学图书馆的网站arXiv.org上发表了一篇关于语音识别研究的论文,他们在该论文中表示已经找到了准确识别语音的新方法,如果按照客观的衡量正确率的标准来进行对比的话,吴恩达表示百度的语音识别技术已经超越了谷歌和苹果的相似技术。
据了解,百度的语音识别技术研究项目名叫“Deep Speech”,这项技术在噪音较大的环境下(如汽车或人群中)的表现尤为突出。吴恩达介绍说,在噪音环境下,百度语音识别技术的表现超过了谷歌的语音识别API、微软的“必应语音”技术和苹果的Dictation技术。而在识别的正确率上,百度语音识别技术要比上述技术高出10个百分点左右。
百度还提供了两位大学教授的意见来支持自己的观点。“百度研究院最近的研究成果将会对未来的语音识别技术研究带来重大突破,”美国卡耐基梅隆大学的助理研究教授伊恩•莱恩(Ian Lane)说道。
与其它语音识别技术一样,百度的语音识别技术也采用了“深度学习”(deep learning)这一人工智能的分支技术。深度学习是利用软件系统来以比较原始的形式模仿人类大脑皮层中的神经元活动,进而对外界的声音、图像和其它数据进行识别。“第一代基于深度学习的语音识别技术已经发展到了极限,”吴恩达在接受采访时表示。
据悉,百度在语音识别技术的研究中累计采集了9600人的长度达7000小时的语音数据。其中大部分是在安静环境中采集的,但有时也会通过喇叭或耳机来播放比较嘈杂的声音,从而让被录音者根据这些情况适当调高自己说话时的音调。研究团队在采集声音数据的过程中一共添加了15种不同类型的背景噪音,包括餐厅、汽车、地铁和人群等等,这实际上已经将语音样本数据的长度放大至10万小时左右,而这些数据都需要输入到百度的语音识别系统中让其进行学习识别。
根据吴恩达的介绍,百度的语音识别技术采用了比目前主流语音识别系统更为简单有效的方法,他们采用了类似神经网络的深度学习算法来取代了以往的识别模块,从而大幅提升了识别效率。同时,百度团队所使用的计算机系统要比吴恩达当初在斯坦福大学和谷歌从事研究时使用的计算机快上40倍左右,这也是该项技术最终能够获得成功的关键因素之一。
“目前我们正在进入语音识别2.0时代,”吴恩达说道,“而我们的技术仅仅是个开始而已。”他认为随着越来越多的文化程度较低的人们开始使用互联网,语音命令将会随之增多,所以语音识别技术也将会变得越来越重要。同时随着物联网的发展,更多的家用设备开始被连接到网络之中,比如电视机、微波炉、温控器等等,而语音指令显然是控制这些设备的最佳方式。
吴恩达拒绝透露百度何时会将这一语音识别技术整合到搜索引擎以及其他服务之中,不过据了解该技术首先可能会被“试验性”地应用到百度的语音控制音乐服务Cool Box之中。
另据了解,吴恩达的团队目前约有30人,明年该团队的规模有望翻番。百度希望凭借吴恩达的团队将自身提升至全球顶级互联网公司的层次。同时,尽管目前百度仍然以中国为主要市场,但其目标是在国际市场上有更大的作为,而这无疑离不开世界级语音识别、翻译以及其它技术的支持。
译者:璞玉
百度新闻与站长搜索合作稿件,转载请注明出处。
标签: 百度 研发 新一代 语音 识别 技术 赶超 谷歌 苹果
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!