当前位置:主页 > 科技论文 > 自动化论文 >

面向低资源场景的语音表示学习及其应用

发布时间:2020-10-17 02:58
   面向低资源场景的语音表示学习是计算机语音语言处理的一个非常基础的任务,其特点是低资源即目标语音数据缺少语言学相关的人工标注信息,其目的是为语音信号提供具有语言学内容及语音基础单元表达能力的表示方法。关于低资源场景语音表示学习的研究具有广泛而深远的意义。一方面,它可为语言习得等认知科学领域的探索提供基础计算模型和验证方法;另一方面,它可为自动语音识别等工程应用提供基础技术支撑。本文针对低资源的特点,围绕无监督的语音基础结构信息挖掘和跨语种信息借用的策略,提出多种具有语音基础结构信息表达能力的语音特征表示方法,并考察这些特征学习方法在基于样例的口语词汇检出和语音文档主题分割任务上的应用效果。现对本文工作主要贡献总结如下:(1)提出一种基于狄利克雷过程高斯混合模型(Dirichlet process Gaussian mixture model,DPGMM)的无监督类音素聚类及后验概率特征提取方法。为了尽量降低语音表示学习的人工参与,本文采用非参贝叶斯模型表示语音基础结构信息。鉴于非参贝叶斯模型推断效率较低,本文采用DPGMM这一浅层非参贝叶斯模型及其基于Metropolis-Hastings的可并行推断算法来实现语音帧的聚类。本文将类簇视作类音素单元,并提取后验概率特征作为观测语音的特征表示。本文基于DPGMM的后验概率特征在国际测评Zero Speech2015数据集上获得最佳的音素区分性效果。(2)提出一种基于DPGMM的无监督瓶颈(Bottle-Neck)特征学习方法。鉴于后验概率特征维度较高,不利于计算密集的后端应用,同时也注意到深度神经网络模型(Deep neural network,DNN)具有优秀的特征学习能力,因此本文结合DPGMM与DNN的特点,提出具有语音基础结构表达能力的无监督瓶颈特征学习方法。在不依赖人工标注的情况下,该方法可以获得能够媲美有监督跨语种瓶颈特征的特征表示。在基于样例的口语词汇检出中,本文的无监督瓶颈特征也取得了较后验概率特征更佳的准确度。(3)提出一种基于DPGMM的无监督多语种瓶颈特征学习方法。针对多个语种的低资源语言,结合DPGMM无监督学习的特点以及多任务学习(Multi-task learning,MTL)的深度神经网络模型(MTL–DNN)抓取学习任务共享信息的特点,本文提出一种基于DPGMM和MTL–DNN,利用多语种数据学习多语种共享的瓶颈特征表示的方法。该特征表示方法对不同低资源语言均有良好的语音基础结构信息表达能力,在国际测评Zero Speech2017中取得了良好的音素区分性性能。(4)提出一种融合低资源目标语种无监督类音素信息与富资源跨语种音素信息的MTL特征学习方法。注意到跨语种富资源语言有大量人工标注数据可用,本文采用MTL–DNN融合跨语种的音素信息与无监督类音素信息,提出一种语音基础结构与内容信息表达能力优于有监督跨语种瓶颈特征和无监督瓶颈特征的低维度瓶颈特征表示方法。从口语词汇检出、音素区分性测试以及特征可视化多个角度,本文也具体分析了多任务瓶颈特征的语音内容表达能力。(5)提出一种基于语音表示的块数自确定语音文档主题分割方法。本文以语音文档主题分割,探讨了本文特征提取方法在低资源场景下的应用前景。针对低资源场景的文档主题分割任务,本文提出一种基于语音表示的块数自确定语音文档主题分割方法,避免语音文档主题分割对人工抄本和主题块数人工预设的依赖。
【学位单位】:西北工业大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TN912.3;TP183
【部分图文】:

距离矩阵,动态时间规整,最佳匹配路径,长句


图 4-8 DTW 距离矩阵 意图语 查询实例 organizations 和测试语 长句 planned parenthood organizations promote birthcontrol 之间的距离矩阵及分 长度归 化动态时间规整算法发现的最佳匹配路径。- 57 -

距离矩阵,语词,检出


DTW距离矩阵意图
【相似文献】

相关期刊论文 前10条

1 殷柏涛;一种改进的无监督竞争学习算法[J];声学与电子工程;1995年02期

2 徐峻岭;周毓明;陈林;徐宝文;;基于互信息的无监督特征选择[J];计算机研究与发展;2012年02期

3 杨斌;刘卫国;;一种基于聚类的无监督异常检测方法[J];计算机工程与应用;2008年01期

4 陶美平;马力;黄文静;吴雨隆;;基于无监督特征学习的手势识别方法[J];微电子学与计算机;2016年01期

5 梁春林;彭凌西;;基于免疫网络的无监督式分类算法[J];山东大学学报(工学版);2010年05期

6 史殿习;李勇谋;丁博;;无监督特征学习的人体活动识别[J];国防科技大学学报;2015年05期

7 陈雁;万寿红;岳丽华;龚育昌;;一种无需初始化的遥感图像无监督分割方法[J];小型微型计算机系统;2010年10期

8 王瑞琴;孔繁胜;;无监督词义消歧研究[J];软件学报;2009年08期

9 吴姗;倪志伟;罗贺;郑盈盈;;一种基于密度的无监督联系发现方法[J];中国管理科学;2008年S1期

10 黄璞;陈才扣;;增强的无监督人脸鉴别技术[J];计算机工程与应用;2010年18期


相关博士学位论文 前10条

1 陈虹洁;面向低资源场景的语音表示学习及其应用[D];西北工业大学;2018年

2 张志锐;面向神经机器翻译的数据增强方法及应用[D];中国科学技术大学;2019年

3 刘彦北;高维数据无监督特征选择算法研究[D];天津大学;2017年

4 王寅同;无监督与半监督降维相关问题研究[D];南京航空航天大学;2016年

5 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年

6 周楠;基于稀疏和信息论的无监督特征学习算法研究[D];电子科技大学;2017年

7 杨波;图驱动的无监督降维和判别子空间学习研究及其应用[D];南京航空航天大学;2010年

8 宋凤义;非控制条件下的人脸分析与验证[D];南京航空航天大学;2014年

9 冯小东;基于稀疏表示的高维数据无监督挖掘研究[D];北京科技大学;2015年

10 甘露;基于三重马尔可夫场的无监督SAR图像分割算法研究[D];西安电子科技大学;2015年


相关硕士学位论文 前10条

1 梁润宇;基于主题情感混合模型的无监督微博情感分类[D];天津工业大学;2019年

2 万家乐;混合稀疏正则化的多视角无监督特征选择[D];天津大学;2018年

3 桂存斌;基于最小化最大平均差异损失的无监督领域自适应[D];北京邮电大学;2019年

4 田刚鹏;多模态下基于迁移学习的无监督软测量建模研究与应用[D];太原理工大学;2019年

5 赵季娟;基于极限学习机的无监督领域适应学习[D];中国矿业大学;2019年

6 黄迪;基于深度学习的无监督型图像语义分析[D];杭州电子科技大学;2018年

7 张建红;基于无监督分割和ELM的织物缺陷检测和分类方法研究[D];昆明理工大学;2018年

8 鲍国强;无监督TSK模糊系统及其应用研究[D];江南大学;2018年

9 杨青相;基于卷积神经网络和双目视差的无监督深度预测[D];北京工业大学;2018年

10 刘鑫;无监督异常检测方法研究及其应用[D];电子科技大学;2018年



本文编号:2844166

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2844166.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fef68***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com