当前位置:主页 > 科技论文 > 网络通信论文 >

藏语连续语音识别技术研究及系统实现

发布时间:2017-04-29 23:14

  本文关键词:藏语连续语音识别技术研究及系统实现,由笔耕文化传播整理发布。


【摘要】:语音识别的主要目的就是将人类发出的语音信号转换成对应的文本序列,或者是计算机能够理解的指令信息,实现人机自然的交互。语音识别包含许多的核心技术,比如:高斯混合模型、隐马尔可夫模型、梅尔频率倒谱系数、多元文法语言模型、判别性训练和各种自适应训练技术。本文主要研究了隐马尔科夫模型及其在藏语连续语音识别中的应用。藏语属于汉藏语系的藏缅语族藏语支,主要有卫藏、康巴、安多三种方言。藏文是一种多音节的拼音文字,每个音节有若干音素组成,在组词发音方面有复杂的规则。本文结合藏语自身的特点,建立以音素为声学单元的隐马尔科夫模型集,并对训练得到的单音素声学模型和三音素声学模型进行识别率对比分析,音素识别率从68.71%提高到69.39%,音节识别率从23.44%提高到42.07%。说明上下文相关建模方法考虑了前后音的协同发音现象,从而使模型更能准确的描述语音。考虑到藏语语音语料库不断增加的情况,我们引入种子模型方法用于声学模型的训练,以获得高精度的声学模型。在当前藏语语料比较匮乏的情况,本文还研究了基于sparse auto-encoder的英藏跨语言语音识别方法。在跨语言语音识别中,发音特征被视为最通用的语音属性。通常使用有监督的方式来训练多层感知器(MLPs)来检测发音特征。本文中我们引入一种以半监督方式训练sparse auto-encoder模型的方法,用来检测基于发音特征的藏语语音属性,并将其应用到跨语言语音识别中。最后,本文采用离线训练的方法提前训练好上下文相关的三音素声学模型,并将准备好的发音词典、三音素列表等一并移植到linux系统中。然后,使用QT对HTX工具进行二次开发,实现了藏语连续语音识别系统。
【关键词】:语音识别 隐马尔科夫模型 藏语发音特征属性 声学模型 跨语文
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
  • 摘要3-5
  • ABSTRACT5-12
  • 第一章 绪论12-17
  • 1.1 语音识别概述12-13
  • 1.2 语音识别技术的发展13-15
  • 1.2.1 国外语音识别发展13-14
  • 1.2.2 国内语音识别发展14-15
  • 1.3 藏语语音识别研究现状15
  • 1.4 本文主要内容及结构15-17
  • 第二章 语音识别基本原理17-30
  • 2.1 语音信号预处理18
  • 2.2 语音信号的特征提取18-22
  • 2.2.1 语音信号预加重19
  • 2.2.2 加窗分帧处理19
  • 2.2.3 语音的端点检测19-20
  • 2.2.4 梅尔频率倒谱系数(MFCC)20-22
  • 2.3 声学模型22-29
  • 2.3.1 隐马尔科夫模型(HMM)22-25
  • 2.3.2 HMM模型的三个问题25
  • 2.3.3 HMM三个基本算法25-29
  • 2.4 语言模型29
  • 2.5 本章小结29-30
  • 第三章 基于HTK的藏语连续语音识别声学模型建模30-42
  • 3.1 HTK工具介绍30
  • 3.2 语音库的建立30-31
  • 3.3 建模单元的选择31-32
  • 3.4 HMM声学模型建模32-40
  • 3.4.1 数据准备32-35
  • 3.4.2 monophones模型训练35-37
  • 3.4.3 triphones模型训练37-38
  • 3.4.4 种子模型38-39
  • 3.4.5 识别测试39-40
  • 3.5 识别结果与分析40-41
  • 3.6 本章小结41-42
  • 第四章 基于sparse auto-encoder的英藏跨语言语音识别研究方法42-52
  • 4.1 引言42-43
  • 4.2 英语和藏语的AF-to-Phone映射43-46
  • 4.3 跨语言音素识别框架46
  • 4.4 sparse auto-encoder算法46-48
  • 4.5 实验与结果分析48-50
  • 4.6 本章小结50-52
  • 第五章 藏语拉萨话连续语音识别系统的实现52-56
  • 5.1 语音识别系统架构52-53
  • 5.2 藏语拉萨话语音识别系统实现53-55
  • 5.3 本章小结55-56
  • 第六章 总结与展望56-58
  • 6.1 总结56
  • 6.2 展望56-58
  • 参考文献58-62
  • 致谢62-63
  • 攻读硕士期间发表的学术论文目录63

【引证文献】

中国重要会议论文全文数据库 前1条

1 孙辉;徐明星;燕鹏举;吴文虎;;电话语音数据库的收集和标注[A];第六届全国人机语音通讯学术会议论文集[C];2001年


  本文关键词:藏语连续语音识别技术研究及系统实现,,由笔耕文化传播整理发布。



本文编号:335804

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/335804.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5dbaa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com