当前位置:主页 > 社科论文 > 图书档案论文 >

基于本体的音频内容检索研究

发布时间:2017-09-03 14:28

  本文关键词:基于本体的音频内容检索研究


  更多相关文章: 音频 标注模型 语音识别 音频检索


【摘要】:音频是多媒体信息的重要组成部分,人们对音频信息的处理量也越来越大,要从海量的音频数据中找到目标音频内容,也给人们带来了挑战。对于音频(语音音频)信息检索系统,其中语音识别技术、说话人识别技术、音频数据的相似度匹配技术以及对音频数据的标注处理技术是核心的环节。本文针对音频内容检索整个过程需要用到的技术进行了相关分析与研究,分析总结了目前国内外对音频检索研究的现状,对音频的部分特征进行了分析,并对部分特征采用MATLAB软件进行了提取。在研究前人对语音识别和说话人识别分别研究的基础上,将这两种不同的模式相结合,构建了二者共同进行识别的模型。除此之外,还提出了基于本体的音频内容检索技术。在音频检索实验系统中,将语音识别、语音合成等模块嵌入其中,对识别效果加以分析与总结。从实验结果来看,对于音频文本的识别率是79.24%,男女声的识别率是86.11%,识别率虽还有待提升,但对于说话人不同的方言口音,结果已经达到本文期望目标。本文将本体技术运用到了音频的存储管理上,提出了标注模型,为解决音频高层次的语义鸿沟做了进一步研究。
【关键词】:音频 标注模型 语音识别 音频检索
【学位授予单位】:西南科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G252.7
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-13
  • 1.1 研究与背景意义9-10
  • 1.2 音频检索现状分析10-12
  • 1.2.1 国内外研究现状10-11
  • 1.2.2 存在问题分析11-12
  • 1.3 研究内容及创新点12-13
  • 1.3.1 研究内容12
  • 1.3.2 本文创新点12-13
  • 2 音频检索相关原理13-24
  • 2.1 音频信号概述13-14
  • 2.2 几种音频格式介绍14-15
  • 2.3 说话人识别原理15-17
  • 2.4 语音识别原理17-22
  • 2.4.1 音频信号预处理17-20
  • 2.4.2 语音识别原理框架20-22
  • 2.5 相似度匹配原理22-23
  • 2.6 本章小结23-24
  • 3 相关技术简介24-31
  • 3.1 Matlab与C混合编程技术24-25
  • 3.1.1 Matlab介绍24
  • 3.1.2 C介绍24-25
  • 3.2 模式识别技术25-30
  • 3.2.1 动态时间规整法25-26
  • 3.2.2 隐马尔可夫模型26-27
  • 3.2.3 人工神经网络27-30
  • 3.3 本章小结30-31
  • 4 BP神经网络与语音识别31-38
  • 4.1 BP神经网络的结构31-32
  • 4.2 BP神经网络的学习算法32-35
  • 4.3 BP神经网络在语音音频识别中的应用35-37
  • 4.4 本章小结37-38
  • 5 音频信号特征参数分析38-45
  • 5.1 时域特征38-42
  • 5.1.1 时域特征概述38-39
  • 5.1.2 基音39
  • 5.1.3 短时平均能量39-41
  • 5.1.4 短时平均过零率41-42
  • 5.1.5 短时自相关函数42
  • 5.2 变换域特征42-44
  • 5.2.1 LPC特征参数42-43
  • 5.2.2 LPCC特征参数43-44
  • 5.2.3 MFCC特征参数44
  • 5.3 本章小结44-45
  • 6 基于本体的音频特征参数提取与表达45-58
  • 6.1 音频信号的部分特征参数提取45-46
  • 6.2 元数据46-47
  • 6.2.1 元数据的定义46-47
  • 6.2.2 元数据的描述语言47
  • 6.3 本体介绍47-49
  • 6.4 基于本体的音频数据标注49-57
  • 6.4.1 音频信息分析49-53
  • 6.4.2 音频元数据和音频媒体数据标注53-55
  • 6.4.3 基于本体的部分音频元数据和音频媒体数据标注55-57
  • 6.5 本章小结57-58
  • 7 基于本体的音频内容检索系统分析与实现58-74
  • 7.1 检索通用框架58-62
  • 7.1.1 需求分析58-60
  • 7.1.2 基于本体的音频内容检索框架分析60-62
  • 7.2 系统实现62-70
  • 7.2.1 系统实现环境62-63
  • 7.2.2 系统功能63-70
  • 7.3 检索案例验证结果分析70-72
  • 7.4 检索系统的评价与改进72-73
  • 7.5 本章小结73-74
  • 总结与展望74-75
  • 致谢75-76
  • 参考文献76-81
  • 附录81-90
  • 攻读学位期间发表的学术论文及研究成果90

【参考文献】

中国期刊全文数据库 前3条

1 郑怡文;;典型的音频分类算法[J];计算机与现代化;2007年08期

2 蒲筱哥;;基于内容的视频检索关键技术研究综述[J];情报科学;2010年03期

3 朱淑琴;赵瑛;;DTW语音识别算法研究与分析[J];微计算机信息;2012年05期

中国硕士学位论文全文数据库 前1条

1 赵姝彦;HMM和神经网络用于语音识别的算法研究[D];太原理工大学;2005年



本文编号:785556

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/785556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cb423***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com