中文课程视频字幕自动生成研究
本文关键词:中文课程视频字幕自动生成研究
更多相关文章: 字幕 语音识别 特征参数提取 声学模型 语言模型
【摘要】:视频字幕是为了理解视频内容而产生的辅助工具,随着互联网的发展,视频字幕的配备越来越重要。本文针对视频字幕自动生成问题进行了研究,阐述了提取课程视频的音频流、音频流断句切分、语音识别、格式文本文件生成等技术原理,重点讨论了中文语音识别技术。中文语音识别过程包括特征参数提取、声学模型、语言模型和模式匹配四个部分。本文对这四个部分运用到的相关技术进行了比较分析,选择MFCC、HMM和N-gram等技术及其相关算法进行中文语音识别研究,并详细阐述了MFCC特征参数提取方法、HMM声学模型及其相关算法以及N-gram语言模型及平滑处理方法。针对中文发音规则,以声母和韵母为音素,结合卡内基梅隆大学开发的sphinx语音识别系统,进行声学建模、语言建模及字典构建。声学建模时采用的是HMM模型,语言建模时采用的是N-gram统计模型,字典的格式采用的是一条语句对应一组音素。在建模过程中,总共收录了音频文件将近3万个,对应的词条也近3万条。论文重点对声学建模和语言建模的过程进行了详细地阐述,在声学建模过程中,重点讲解了建模前期要做的数据准备工作及训练过程,在语言建模过程中,重点对模型训练过程进行了讲解。通过建立语料库、研究sphinx语音识别系统及设计开发字幕生成系统三个步骤,最终实现了一个字幕自动生成系统。测试和对比实验表明,本研究设计的字幕自动生成系统中文识别率约为51%。通过分析总结,偏小的语料库是制约本研究识别率的最重要因素。
【关键词】:字幕 语音识别 特征参数提取 声学模型 语言模型
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要3-4
- Abstract4-7
- 第1章 绪论7-13
- 1.1 研究背景和意义7-8
- 1.2 国内外发展与现状8-10
- 1.2.1 国外发展与现状8-9
- 1.2.2 国内发展与现状9-10
- 1.3 研究目标和内容10-11
- 1.3.1 研究目标10
- 1.3.2 研究内容10-11
- 1.4 本文的组织结构11-13
- 第2章 汉语语音识别13-22
- 2.1 语音识别系统简介13-15
- 2.2 声学模型15-18
- 2.2.1 声学模型概述15-16
- 2.2.2 汉语发音特点概述16-17
- 2.2.3 特征参数提取方法介绍17-18
- 2.2.4 声学建模的方法18
- 2.3 语言模型18-20
- 2.4 字典20-21
- 2.5 本章小结21-22
- 第3章 声学模型22-38
- 3.1 基于MFCC的特征参数提取22-25
- 3.1.1 预加重22-23
- 3.1.2 分帧23
- 3.1.3 加窗23-24
- 3.1.4 FFT变换24
- 3.1.5 MEL频率滤波器组24
- 3.1.6 Log(取对数)24-25
- 3.1.7 DCT(离散余弦变换)25
- 3.2 HMM模型25-29
- 3.2.1 forward-backward算法27-28
- 3.2.2 Viterbi算法28-29
- 3.3 基于sphinx的声学模型训练29-37
- 3.3.1 sphinx框架介绍29-30
- 3.3.2 语料的选取及存储30-31
- 3.3.3 训练数据的准备准备31-34
- 3.3.4 模型的训练34-37
- 3.4 本章小结37-38
- 第4章 语言模型38-46
- 4.1 语言模型概述38
- 4.2 统计语言模型38-41
- 4.2.1 N-gram模型38-39
- 4.2.2 平滑处理方法39-41
- 4.3 语言模型训练41-45
- 4.4 本章小结45-46
- 第5章 中文课程视频字幕自动生成系统的设计与实现46-57
- 5.1 语料库的建设46-48
- 5.2 sphinx语音识别技术研究48-49
- 5.3 中文课程视频字幕自动生成系统的设计49-54
- 5.3.1 系统的设计49-51
- 5.3.2 视频处理51
- 5.3.3 音频处理51
- 5.3.4 语音识别51-53
- 5.3.5 字幕的生成53-54
- 5.4 实验及实验结果分析54-56
- 5.4.1 不同大小的模型库对识别率的影响比对55
- 5.4.2 不同N-gram模型对识别率的影响比对55
- 5.4.3 字幕生成系统识别结果55-56
- 5.5 本章小结56-57
- 第6章 总结与展望57-59
- 6.1 全文总结57-58
- 6.2 展望58-59
- 参考文献59-62
- 附录62-66
- 致谢66-67
- 作者简介67
【相似文献】
中国期刊全文数据库 前10条
1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
2 邢文;语音识别[J];个人电脑;2000年02期
3 ;语音识别的真相[J];个人电脑;2001年12期
4 ;语音识别渐入佳境[J];个人电脑;2002年03期
5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
6 ;语音识别[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:531580
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/531580.html