机器之心独家专访首度揭秘地平线语音战略与

机器之心原创作者:李亚洲

从创立之初,地平线的愿景就是为包括智能家电、服务机器人、自动驾驶汽车在内的众多设备装上「大脑」,让它们具有从感知、交互、理解到决策的智能。人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一。

虽然过去的一年中,我们听到更多的是地平线关于图像、芯片方面的研究,但据机器之心了解,地平线在创立之初(年)就拥有了一支十分强大的语音团队,很早就在进行语音方面的研究,积累起独特的技术优势。

在近日,机器之心对地平线联合创始人、算法副总裁黄畅博士以及首席语音算法工程师牛建伟进行了专访,从公司的整体战略、语音技术两个角度揭开地平线语音的神秘面纱。

黄畅博士,地平线机器人技术联合创始人、算法副总裁。深度学习专家,前百度主任架构师(T10)。长期从事计算机视觉、机器学习、模式识别和信息检索方面的研究,作为相关学术界和工业界的知名专家,发表的论文被引用超过次,拥有多项国际专利。他开发的人脸检测技术,创造了世界上首次计算机视觉技术被大规模应用的成功范例,占领80%数码相机市场,并且被苹果iPhoto等诸多图像管理软件所采用。

;

牛建伟,地平线机器人技术首席语音算法工程师、语音识别团队负责人。牛建伟毕业于西北工业大学语音识别专业。曾任百度语音技术部资深工程师,在百度期间研发了国内第一个采用深度学习技术的大规模商用语音识别系统,并建立了一套国内领先的离线语音识别系统。牛建伟年加入地平线后,主导搭建了地平线的语音识别系统。

地平线的语音战略

机器之心:请黄畅博士介绍一下地平线在语音方面所做的工作?

黄畅:请容许我首先介绍一下我在语音方面的同事牛建伟。牛建伟在加入地平线之前就职于百度语音技术部,是国内语音行业中最早一批接触并运用深度学习算法的人,至今从事语音方面的研发工作已经7年有余。事实上,地平线从创立伊始就开始语音技术的研发,原因很简单——万物智能意味着人机交互需要变得更加自然,而语音正是其中最重要的手段之一。在家居场景中,各种智能终端上的语音技术与手机上的相比,会复杂很多,具体表现为:语音的获取从近场变为远场、对交互响应时间的要求更为苛刻、需要对接的服务种类更加繁杂。这些特点决定了智能终端不能简单沿用手机上的语音技术架构。

为了更好地处理远场语音问题,我们开展了语音信号处理(包括麦克风阵列)相关的算法和硬件研发;为了降低交互响应时间,我们采用了云端+嵌入式的语音识别架构;在嵌入式端,受限于计算资源,我们仅仅运行信号处理、唤醒、命令词和小规模通用语音识别模型,以保证低延时的交互响应以及网络条件不好情况下的用户体验;而在云端我们可以采用更大规模的声学模型、更复杂的解码器和语言模型,在网络条件良好的情况下确保更好的用户体验;最终,通过语义理解、知识库和对话系统,做出决策并对智能设备进行有效的控制,将用户和广泛的服务对接起来。

机器之心:现在的语音团队大约发展到了多少人?

黄畅:除了北京,我们还在南京设立了语音研发中心,整个团队加起来正式员工有20多人。

机器之心:国内也有一批语音方面的人工智能创业公司,比如思必驰、云知声等,我们和他们比起来有什么不同?

黄畅:我们的角度是不一样的。首先据我所知,他们还是非常偏重云端的。地平线的语音则一开始就强调云端+嵌入式。语音信号处理、唤醒、命令词以及语音小模型放在嵌入式端,以保证实时性和网络不佳条件下的必要功能,而将语音大模型和语义理解放在云端,以提供更佳的性能并能对接服务,这种云端+嵌入式端的整体方案,可以提供更好的用户体验。

我们注重的是语音全自然交互的解决方案,也就是前端语音信号处理与后端语音识别、语义理解相结合。

语音信号处理、语音识别、语义理解这三个环节组成了一个完整的解决方案,尤其需要注意的是前端语音信号处理,它发挥了很重要的作用。举个简单例子,在语音识别环节很重要的就是对数据进行扰动、加噪。那么加噪怎么加?加多少?这其实跟音频信号处理关系是非常大的。如果只专注于语音识别这件事情而不做音频前端的信号处理、优化,就会导致在具体产品上出现性能不好,或者成本过高等问题。

最后,我们在软硬件配合方面做了大量工作。硬件体现在两方面,一方面是在前端信号处理上的麦克风阵列,另一方面是在中间的语音识别,尤其在嵌入式的语音识别,需要我们设计专用的、针对深度学习优化的计算架构芯片。

所以我们认为语音交互这件事情,首先是云端+嵌入式;其次是语音信号处理、语音识别、语义理解三个环节都要做;最后,你要软硬结合。这三个维度缺一不可。

机器之心:地平线之前推出的雨果平台、安徒生平台上面使用到的语音交互解决方案也都是我们自己的?

黄畅:雨果1.0平台是一个基于FPGA的平台,它主要面对的是汽车市场。安徒生平台面向的是智能家居。现阶段,车载语音暂时还没有放在我们的工作范畴之内,我们专注的是智能家居的语音应用。所以说我们的语音目前要是在安徒生平台上的应用。

这其实也反映了另外一个问题。表面上看车载语音和家居语音都是语音应用,但实际上因为场景不同,可以接受的功耗和成本不一样,这导致你所采用的技术方法的差距非常大。

所以在研究方面我们要把信号处理、语音识别和语义理解三个环节都做。但在其他的维度上,比如在具体应用场景中,我们要有所收敛。因为毕竟我们不可能像一个大公司一样,投入非常多的资源在所有的维度上。

机器之心:地平线之前一直在做图像识别方面的研究,也有语音识别方面的研究。如果两者部署到同一个平台,比如说同一个机器人平台上,它们是相互促进?还是彼此独立的存在?

黄畅:这恰恰是我们努力在做的。表面上看语音和图像好像是是两个不同的东西,但实际在交互的过程中我们追求的是一种多模态的交互。

举个简单的例子,我们通常说语音是比较自然的交互,但是在有些场景中你会发现手势、人脸这些来自于图像的信号也能够很好的辅助你进行交互。尤其是在复杂的场景中,比如说开party,你会发现在嘈杂的声音中把语音分离出来是很难的。

针对这种复杂场景中的问题,虽然我们有增强的方法,但是你一开始甚至不知道应该往哪个方向进行增强。所以我们可以结合一些来自于图像的indicator,比如说手势识别,比如说类似前段时间DeepMind做的唇语识别。它(指DeepMind的LipNet)是个很有意思的应用,也是在做语音识别,但它不是靠语音信号而是靠图像信号,而且准确率十分惊人。

这就说明一个很有趣的问题:如何让机器所感知的信息,像人机交互一样,也是一种多模的交互?从逻辑上来讲,是把语音和图像的交互结合起来。从执行上来讲,你必须把两个东西放在一套系统里面,非常完美地同时运行这两个东西。

再往深处去挖,图像和语音发展到现在,在计算模式上已经有了非常大的相似性,这使得我们可以设计一套对这两种问题通用的计算架构,这也是我们之所以非常看重专用的芯片架构设计的原因。因为我们相信用一套专门设计的新架构,能够做好包括语音、图像、决策在内的很多人工智能问题的运算。

机器之心:把语音技术部署到产品上面接下来有什么计划吗?

黄畅:前期主要是在智能家居方面,比如说跟科沃斯的合作,将语音识别技术用于智能扫地机器人上。此外我们也在跟其它家电厂商研发基于语音识别的技术应用。

地平线认为年是语音识别广泛应用的关键年。所以我们在这一年会非常重视整个语音的技术研发和产品推广,包括市场拓展,这是今年公司最重要的方向之一。

地平线的语音技术

机器之心:两位能从技术角度讲解下地平线的语音研究吗?模型与算法?

牛建伟:前面也讲到了,地平线在很多方面都有一些工作:音频信号处理、语音识别、语义理解、语音合成等。

具体到其中的「语音识别」,它包括两大模型:在语言模型上我们现在用的是n-gram结合RNN的模型;识别模型在嵌入式端主要用CNN和DNN模型,服务器上采用CLDNN模型结构。

我们在算法上做的提升包括:一个是前端音频信号处理,我们正在做一套完整的前端模块或者说是算法套件。有了前端的提升之后,我们的识别系统对强噪声干扰、人声干扰就会有更好的鲁棒性。

另一个提升是针对语音识别场景的打磨。因为扫地机器人或者是空调,都有一些本体噪声。我们需要模型能够适应这种本体噪声。此外,就是一些建模方法、模型结构上的改变或者改进,比如DeepCNN模型、LSTM模型以及进一步引入CTC准则。

刚才提到的LSTM模型、CLDNN模型,在一些数据集上我们都已经能够验证效果,并将逐步将算法移植到我们自己的芯片上。

语音合成上,我们现在用的是基于BLSTM模型的一套参数合成系统,现在也在追踪WaveNet。

黄畅:现在很多学术界或者业界的新发展,基本上都是基于大规模的服务器、GPU去完成的。我们在跟踪这些最新的方法同时,非常


转载请注明:http://www.aierlanlan.com/rzfs/4861.html