基于Raspberry Pi的语音传输及识别系统的设计与实现
发布时间:2022-02-18 15:54
以人类语言和计算机进行交互一直是近几十年自动语音识别(Automatic Speech Recognition,ASR)研究的主要方向。20世纪下半叶,各种ASR技术如雨后春笋应运而生,例如:梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)、高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔科夫模型(Hidden Markov Model,HMM)等。这些理论与技术的提出为ASR发展带来很好的契机。在21世纪的第二个十年里,由于移动终端的普及,ASR又迎来了研究的高潮,各种新技术、新模型被提出并应用于实践。为了降低系统的成本,方便携带、安装以及配置,本文基于树莓派(Raspberry Pi)设计一种语音传输识别系统,可以对火车站的广播语音实现采集、传输和识别功能。本文设计的ASR系统避免传统语音采集传输设备体积大、成本高、工作量大等问题,还可以远程终端连接,从而更加灵活方便地修改系统配置。本系统包括软件和硬件两个部分。其中,硬件由Raspberry Pi、拾音器等构成,主要实现语音的采集功能。软件方面则分为两...
【文章来源】:山西大学山西省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
ASR的主要流程
因此需要对其进行 AD 转换,将其转化 1-4000Hz,在本文设计系统中,根据奈奎斯特采样本文中采用的语音采集是利用拾音器和 Raspberry Pi 音频信号的采集、传输等功能。的预加重预处理的一种手段,其目的是减轻口唇辐射对音频的率。因为在 800Hz 以上的高频端,音频会以 6dB/oc的高频部分进行加重,以此补偿衰减。高通滤波器(HPF)来实现音频信号预加重,传递函1()1 H Z Z中, 为滤波系数,且 [ 0.9,1],通常取 0.9735。频(AFR)相频(PFR)曲线变化如图 2.2。
??Raspberry Pi 的语音传输及识别系统的设计与实现8图 2.3 展示了初始信号与经过 HPF 后的音频信号样点数的变化图 2.3 初始音频信号与经 HPF 后的音频信号样点数变化图 2.4 展示了初始信号与经过 HPF 的信号幅度的变化。图 2.4 信号与经过 HPF 后的语音信号幅度对比2.3.3 语音信号的加窗分帧虽然音频信号具有时变特性,但是一般认为在 10~30ms 内,音频信号的特性会保持相对稳定。利用这个特性,我们可以对音频信号进行分帧,即将一段音频信号划分为若干个 10~30ms 的音频片段。分帧一般采用交叠分段的方法,以确保各帧之间平稳过渡。帧移指的是各相邻两帧间的交叠重复部分。帧移与帧长的比率通常为
【参考文献】:
期刊论文
[1]几种语音识别特征参数的研究[J]. 刘雅琴,智爱娟. 计算机技术与发展. 2009(12)
[2]语音信号的预处理和特征提取技术[J]. 张节. 电脑知识与技术. 2009(22)
[3]语音识别技术的发展现状及应用前景[J]. 高新涛,陈乖丽. 甘肃科技纵横. 2007(04)
[4]语音识别关键技术研究[J]. 息晓静,林坤辉,周昌乐,蔡骏. 计算机工程与应用. 2006(11)
[5]基于ANN的汉语数字语音识别[J]. 张保轩,邵献之. 山东电子. 1995(01)
硕士论文
[1]语音信号端点检测算法的研究[D]. 邢立钊.郑州大学 2016
[2]基于HMM的语音识别系统的研究与实现[D]. 崔天宇.吉林大学 2016
[3]语音识别关键技术研究及系统实现[D]. 黄文龙.重庆大学 2010
[4]基于HMM和ANN的语音识别算法研究[D]. 徐晓娜.长春理工大学 2009
[5]基于人耳听觉特性的语音特征提取研究[D]. 方鹤鹤.西北大学 2006
本文编号:3631116
【文章来源】:山西大学山西省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
ASR的主要流程
因此需要对其进行 AD 转换,将其转化 1-4000Hz,在本文设计系统中,根据奈奎斯特采样本文中采用的语音采集是利用拾音器和 Raspberry Pi 音频信号的采集、传输等功能。的预加重预处理的一种手段,其目的是减轻口唇辐射对音频的率。因为在 800Hz 以上的高频端,音频会以 6dB/oc的高频部分进行加重,以此补偿衰减。高通滤波器(HPF)来实现音频信号预加重,传递函1()1 H Z Z中, 为滤波系数,且 [ 0.9,1],通常取 0.9735。频(AFR)相频(PFR)曲线变化如图 2.2。
??Raspberry Pi 的语音传输及识别系统的设计与实现8图 2.3 展示了初始信号与经过 HPF 后的音频信号样点数的变化图 2.3 初始音频信号与经 HPF 后的音频信号样点数变化图 2.4 展示了初始信号与经过 HPF 的信号幅度的变化。图 2.4 信号与经过 HPF 后的语音信号幅度对比2.3.3 语音信号的加窗分帧虽然音频信号具有时变特性,但是一般认为在 10~30ms 内,音频信号的特性会保持相对稳定。利用这个特性,我们可以对音频信号进行分帧,即将一段音频信号划分为若干个 10~30ms 的音频片段。分帧一般采用交叠分段的方法,以确保各帧之间平稳过渡。帧移指的是各相邻两帧间的交叠重复部分。帧移与帧长的比率通常为
【参考文献】:
期刊论文
[1]几种语音识别特征参数的研究[J]. 刘雅琴,智爱娟. 计算机技术与发展. 2009(12)
[2]语音信号的预处理和特征提取技术[J]. 张节. 电脑知识与技术. 2009(22)
[3]语音识别技术的发展现状及应用前景[J]. 高新涛,陈乖丽. 甘肃科技纵横. 2007(04)
[4]语音识别关键技术研究[J]. 息晓静,林坤辉,周昌乐,蔡骏. 计算机工程与应用. 2006(11)
[5]基于ANN的汉语数字语音识别[J]. 张保轩,邵献之. 山东电子. 1995(01)
硕士论文
[1]语音信号端点检测算法的研究[D]. 邢立钊.郑州大学 2016
[2]基于HMM的语音识别系统的研究与实现[D]. 崔天宇.吉林大学 2016
[3]语音识别关键技术研究及系统实现[D]. 黄文龙.重庆大学 2010
[4]基于HMM和ANN的语音识别算法研究[D]. 徐晓娜.长春理工大学 2009
[5]基于人耳听觉特性的语音特征提取研究[D]. 方鹤鹤.西北大学 2006
本文编号:3631116
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3631116.html