智能语音交互技术进展
发布时间:2020-12-19 08:05
随着AIoT时代的到来,包含手机、智能音箱、智能电视、可穿戴产品在内的智能设备数量呈现井喷式增长。由于语音的便捷性,智能语音交互已经成为连接人与智能设备的主要方式。智能设备能够"听懂"用户的语言,执行相应的指令或者进行合理的回复。智能语音交互背后包含大量的人工智能技术。本文首先将智能语音交互技术拆解成语音识别、自然语言理解、人机对话和语音合成等几项主要技术,分别介绍了这些技术的概念、进展及未来的发展趋势展望,最后以小米智能助手"小爱同学"为例,介绍了这些技术在实际场景中的应用。
【文章来源】:人工智能. 2020年05期
【文章页数】:15 页
【部分图文】:
智能语音交互的一般流程
语音识别或者说自动语音识别(Automatic Speech Recognition,简称ASR),通常是智能语音交互的第一步。自动语音识别是指从麦克风采集到的语音波形信号中,解码出人们口中所说的说话内容的过程(如图2所示)。研究者认为,语音识别的过程即是从语音信号到文字内容的解码过程。学术界通常把语音识别定义为一个广义的技术集合,认为语音识别是一个全栈的技术,包括语音转文字、声纹识别、语音关键词检出、口语评测等。而工业界对语音识别的定义则相对狭义,只表示语音转文字的过程。本文也只论述这个狭义的概念。
连续语音识别中的声学模型可以理解为帮助计算机认知每个音素单元的声学特征,语言模型可以理解为计算机对人类用词习惯的认知。语音识别的过程就是在语音信号中不断地解析出各种可能的音素连接,这些连接受到词典和用词习惯的约束,把可能性最高的连接作为识别结果输出给用户。研究人员引入了序列建模,典型的模型是隐含马尔可夫模型(HMM),用来描述如何在可变长的时序特征序列上打词标签。HMM主持序列的流转,用来在时间序列上某个点打标签的代表模型是高斯混合模型(GMM)或者多层的神经感知网络(MLP),与此同时,为了表达人类在连续说话中的用词习惯,研究者把统计语言模型也融入到这个系统中。从序列标签模型引入起,研究者一直试图解决序列离散化假设缺陷,打标签目标不以结果为导向,但影响语音识别率的核心矛盾是模型分类能力。为了解决这个主要矛盾,基于模板的思路曾经在2000年后再度兴起,为2011年[1]数据爆发和深度神经网络入主语音识别打下思想基础。图4 语音识别技术的变迁
本文编号:2925571
【文章来源】:人工智能. 2020年05期
【文章页数】:15 页
【部分图文】:
智能语音交互的一般流程
语音识别或者说自动语音识别(Automatic Speech Recognition,简称ASR),通常是智能语音交互的第一步。自动语音识别是指从麦克风采集到的语音波形信号中,解码出人们口中所说的说话内容的过程(如图2所示)。研究者认为,语音识别的过程即是从语音信号到文字内容的解码过程。学术界通常把语音识别定义为一个广义的技术集合,认为语音识别是一个全栈的技术,包括语音转文字、声纹识别、语音关键词检出、口语评测等。而工业界对语音识别的定义则相对狭义,只表示语音转文字的过程。本文也只论述这个狭义的概念。
连续语音识别中的声学模型可以理解为帮助计算机认知每个音素单元的声学特征,语言模型可以理解为计算机对人类用词习惯的认知。语音识别的过程就是在语音信号中不断地解析出各种可能的音素连接,这些连接受到词典和用词习惯的约束,把可能性最高的连接作为识别结果输出给用户。研究人员引入了序列建模,典型的模型是隐含马尔可夫模型(HMM),用来描述如何在可变长的时序特征序列上打词标签。HMM主持序列的流转,用来在时间序列上某个点打标签的代表模型是高斯混合模型(GMM)或者多层的神经感知网络(MLP),与此同时,为了表达人类在连续说话中的用词习惯,研究者把统计语言模型也融入到这个系统中。从序列标签模型引入起,研究者一直试图解决序列离散化假设缺陷,打标签目标不以结果为导向,但影响语音识别率的核心矛盾是模型分类能力。为了解决这个主要矛盾,基于模板的思路曾经在2000年后再度兴起,为2011年[1]数据爆发和深度神经网络入主语音识别打下思想基础。图4 语音识别技术的变迁
本文编号:2925571
本文链接:https://www.wllwen.com/kejilunwen/wltx/2925571.html