基于卷积神经网络的不同口音对话自适应识别研究
发布时间:2021-01-15 19:25
近年来,计算机与互联网引领了整个世界的发展潮流,在这个信息爆炸的大数据时代,每天来自各个领域的音频文件不计其数,语音识别技术也随之越来越受到学术研究和工业生产的青睐。然而在语音识别的过程中难免会遇到在一段语音中包含有不止一个说话人的音频文件,也难免会有带有不同口音的说话人声音存在,这两种客观问题的存在势必会影响语音识别的效果,很大程度上降低了识别系统的性能。因此本文针对这两个问题展开研究和讨论。本文首先提出一种基于美尔频率倒普参数(Mel-Frequency Cepstral Coefficients,MFCC)和语谱图(SPECTROGRAM)的融合特征MFCCSPECTROGRAM。由于人耳对声音的感知系统是一种特殊的非线性系统,美尔频率倒普参数就是从人耳听觉角度出发着重描述语音信号的隐含特征,而语谱图则是从人体对语音信号的生成系统角度出发着重描述语音信号的本质特征,本文结合MFCC和SPECTROGRAM两种特征各自带有的特性,提出MFCCSPECTROGRAM语音融合特征参数,作为后续语音研究的基础特征。其次本文引入CALL-CENT...
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
人体发声系统结构图
图 2.2 人体听觉系统结构图Fig. 2.2 Structure diagram of human auditory system如图 2.2 所示,人耳一般包括内耳、中耳、外耳三个部分。其中外耳由耳廓和道构成,在耳道的末端是鼓膜,它位于外耳和中耳之间,也是中耳的起点。包含三根听骨分别是锤骨、砧骨和镫骨。内耳包括耳蜗、前庭、半规管、欧和听觉神经等部分。在人体听觉系统中,外耳在对声音感知的过程中主要起声源进行定位并将声音放大的作用。中耳的作用主要是为了平衡中耳与外耳的气压,保证鼓膜的正常振动;对比较强的声音起到发射作用,降低传入内声音强度,起到保护作用;使声音可以有效地从外耳传入到内耳,起阻抗匹用。内耳是听觉的接收器,把声音通过机械变换产生神经脉冲,内耳也是连脑听觉中枢的起点。声音经过外耳部的耳廓传入耳道,从而引起鼓膜的振动。通过听骨传入内耳,引起耳蜗内的淋巴液体振动,从而使内耳里的毛细胞感振动,发出神经脉冲,神经脉冲沿着神经通路传入大脑的听觉神经中枢,人脑接收到外界的声音信号,最后使人产生听觉。至此,就完成了语音信号感
语音信号产生模型如图2.3 所示:它的传递函数可以表示为:(2.1)图 2.3 语音信号产生模型Fig. 2.3 Speech signal generation model激励模型主要是通过肺部气流和声带共同作用形成的激励,激励可以分为准周期脉冲和随即噪声两种。准周期脉冲的激励声道产生浊音,此时图 2.3 中的清音/浊音“开关”向上, 是声门脉冲即三角形脉冲序列的 z 变换,另一种随即噪声的激励声道产生清音,这种情况下图中的清音/浊音“开关”向下, 是随机噪声z 的变换。 和 分别为浊音和清音的幅度控制信号。声道模型的主要作用是进行调音运动,当声波经过声道的时候,受到声腔共振影响,在一些特定频率的附近形成谐振。 是声道传输函数。其数学模型可采用将 N 段短声管的级联结构模拟,每级的声管截面积不变,传输函数全极点模型可表示为:(2.2)辐射模型主要是指嘴唇和鼻子的辐射作用,令 是辐射模型函数。从声道声门波模型随机噪声发生器
【参考文献】:
期刊论文
[1]基于基频的朝鲜语方言辨识方法的研究[J]. 刘双君,金小峰,崔荣一. 中文信息学报. 2017(02)
[2]基于联合多样性密度的汉语方言辨识[J]. 顾明亮,张世形,张浩,张宁. 计算机工程与应用. 2016(10)
[3]基于卷积神经网络的多字体字符识别[J]. 吕刚. 浙江师范大学学报(自然科学版). 2011(04)
[4]基于预分割的说话人分割方法[J]. 郑铁然,李海峰,刘先,韩纪庆. 通信学报. 2009(02)
[5]一种两层次无监督的音频分割算法[J]. 张世磊,张树武,徐波. 中文信息学报. 2007(02)
[6]基于高斯混合模型的汉语方言辨识系统[J]. 顾明亮,马勇. 计算机工程与应用. 2007(03)
[7]基于语音配列的汉语方言自动辨识[J]. 顾明亮,沈兆勇. 中文信息学报. 2006(05)
博士论文
[1]说话人识别中语音特征参数提取方法的研究[D]. 王玥.吉林大学 2009
硕士论文
[1]基于GMM-UBM的快速说话人识别方法[D]. 王秋雯.哈尔滨工业大学 2011
本文编号:2979381
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
人体发声系统结构图
图 2.2 人体听觉系统结构图Fig. 2.2 Structure diagram of human auditory system如图 2.2 所示,人耳一般包括内耳、中耳、外耳三个部分。其中外耳由耳廓和道构成,在耳道的末端是鼓膜,它位于外耳和中耳之间,也是中耳的起点。包含三根听骨分别是锤骨、砧骨和镫骨。内耳包括耳蜗、前庭、半规管、欧和听觉神经等部分。在人体听觉系统中,外耳在对声音感知的过程中主要起声源进行定位并将声音放大的作用。中耳的作用主要是为了平衡中耳与外耳的气压,保证鼓膜的正常振动;对比较强的声音起到发射作用,降低传入内声音强度,起到保护作用;使声音可以有效地从外耳传入到内耳,起阻抗匹用。内耳是听觉的接收器,把声音通过机械变换产生神经脉冲,内耳也是连脑听觉中枢的起点。声音经过外耳部的耳廓传入耳道,从而引起鼓膜的振动。通过听骨传入内耳,引起耳蜗内的淋巴液体振动,从而使内耳里的毛细胞感振动,发出神经脉冲,神经脉冲沿着神经通路传入大脑的听觉神经中枢,人脑接收到外界的声音信号,最后使人产生听觉。至此,就完成了语音信号感
语音信号产生模型如图2.3 所示:它的传递函数可以表示为:(2.1)图 2.3 语音信号产生模型Fig. 2.3 Speech signal generation model激励模型主要是通过肺部气流和声带共同作用形成的激励,激励可以分为准周期脉冲和随即噪声两种。准周期脉冲的激励声道产生浊音,此时图 2.3 中的清音/浊音“开关”向上, 是声门脉冲即三角形脉冲序列的 z 变换,另一种随即噪声的激励声道产生清音,这种情况下图中的清音/浊音“开关”向下, 是随机噪声z 的变换。 和 分别为浊音和清音的幅度控制信号。声道模型的主要作用是进行调音运动,当声波经过声道的时候,受到声腔共振影响,在一些特定频率的附近形成谐振。 是声道传输函数。其数学模型可采用将 N 段短声管的级联结构模拟,每级的声管截面积不变,传输函数全极点模型可表示为:(2.2)辐射模型主要是指嘴唇和鼻子的辐射作用,令 是辐射模型函数。从声道声门波模型随机噪声发生器
【参考文献】:
期刊论文
[1]基于基频的朝鲜语方言辨识方法的研究[J]. 刘双君,金小峰,崔荣一. 中文信息学报. 2017(02)
[2]基于联合多样性密度的汉语方言辨识[J]. 顾明亮,张世形,张浩,张宁. 计算机工程与应用. 2016(10)
[3]基于卷积神经网络的多字体字符识别[J]. 吕刚. 浙江师范大学学报(自然科学版). 2011(04)
[4]基于预分割的说话人分割方法[J]. 郑铁然,李海峰,刘先,韩纪庆. 通信学报. 2009(02)
[5]一种两层次无监督的音频分割算法[J]. 张世磊,张树武,徐波. 中文信息学报. 2007(02)
[6]基于高斯混合模型的汉语方言辨识系统[J]. 顾明亮,马勇. 计算机工程与应用. 2007(03)
[7]基于语音配列的汉语方言自动辨识[J]. 顾明亮,沈兆勇. 中文信息学报. 2006(05)
博士论文
[1]说话人识别中语音特征参数提取方法的研究[D]. 王玥.吉林大学 2009
硕士论文
[1]基于GMM-UBM的快速说话人识别方法[D]. 王秋雯.哈尔滨工业大学 2011
本文编号:2979381
本文链接:https://www.wllwen.com/kejilunwen/wltx/2979381.html