当前位置:主页 > 科技论文 > 信息工程论文 >

基于嵌入式平台的说话人识别系统的研究与实现

发布时间:2017-08-28 19:48

  本文关键词:基于嵌入式平台的说话人识别系统的研究与实现


  更多相关文章: 嵌入式linux系统 说话人识别系统 矢量量化 高斯混合模型 STRF特征提取 改进的GMM模型 系统移植


【摘要】:说话人识别系统通过语音设备采集语音信号,然后对语音信号经过预处理并进行特征参数的提取,最后经过说话人识别的算法鉴别出说话人的身份。作为当今的一个研究热点,说话人识别有其广泛的应用前景,特别是在公安司法、金融以及信息服务等领域。针对目前说话人识别算法复杂度高,鲁棒性不强的问题,本文主要研究了说话人识别算法,并从实用的角度出发,设计并实现了基于嵌入式linux的说话人识别系统。本课题选用三星S5PV210作为核心处理器,并基于嵌入式linux系统搭建嵌入式平台。实现使用u-boot开发bootloader引导程序,对linux-3.0.8的内核进行裁剪和编译生成内核镜像文件uImage,使用nfs起根文件系统,最后的应用程序主要使用QT来开发最终的说话人识别的界面。在说话人识别系统实现方面,课题利用ALSA函数库实现语音的采集,实现对语音信号的预处理并且对处理过的语音信号进行特征参数的提取,最终再利用矢量量化(VQ)和高斯混合模型(GMM)的原理实现说话人识别系统,并且通过对其他的说话人识别系统比如隐马尔可夫(HMM)和人工神经网络(ANN)加深对说话人识别的认识和理解。同时本文使用频谱时间接受域(STRF)特征提取,该算法比Mel频率倒谱系数(MFCC)更符合人耳特性,从而提高系统的鲁棒性,但由于其识别率较低,因此可以融合MFCC,从而提高系统的识别率。以此同时对GMM模型进行改进,使用改进的EM算法和改进的遗传算法,最终将改进的STRF运用在改进的GMM模型上,实现本文算法目的。通过一系列的移植操作,将PC上实现的说话人识别系统移植到开发板上,实现其真正的实际应用。基于嵌入式系统的说话人识别系统具有实时性,专用性以及良好的用户界面等优点,为其在以后市场的使用奠定了实际基础。
【关键词】:嵌入式linux系统 说话人识别系统 矢量量化 高斯混合模型 STRF特征提取 改进的GMM模型 系统移植
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-16
  • 1.1 说话人识别研究背景与意义10
  • 1.2 说话人识别的分类10-11
  • 1.3 说话人识别的发展历程11-12
  • 1.4 说话人识别存在的问题和解决方案12
  • 1.5 嵌入式linux系统12-13
  • 1.5.1 嵌入式系统概述12-13
  • 1.5.2 嵌入式系统开发模式13
  • 1.5.3 硬件平台设计13
  • 1.5.4 软件平台设计13
  • 1.6 嵌入式技术在说话人识别中的应用13-14
  • 1.7 本论文的内容安排14-16
  • 第二章 嵌入式linux系统的设计和关键技术16-32
  • 2.1 嵌入式linux系统的概述16
  • 2.2 嵌入式系统的硬件设计16-17
  • 2.3 嵌入式系统的软件设计17-30
  • 2.3.1 Linux开发环境的安装17-19
  • 2.3.2 Bootloader引导程序19-22
  • 2.3.3 Linux内核的编译22-24
  • 2.3.4 制作根文件系统24-26
  • 2.3.5 nfs起根文件系统26-27
  • 2.3.6 QT开发27-30
  • 2.4 Linux内核镜像烧写30-31
  • 2.5 本章小结31-32
  • 第三章 说话人识别系统的基本原理和算法32-52
  • 3.1 说话人识别的基本原理32-33
  • 3.1.1 语音输入32
  • 3.1.2 预处理32
  • 3.1.3 特征提取32
  • 3.1.4 识别方法32-33
  • 3.2 语音的发声原理33-34
  • 3.3 语音信号的采集34-36
  • 3.3.1 数字音频34
  • 3.3.2 ALSA声卡驱动34-35
  • 3.3.3 ALSA应用程序编程35-36
  • 3.4 预处理36-39
  • 3.4.1 短时能量37-38
  • 3.4.2 短时平均过零率38
  • 3.4.3 端点检测38-39
  • 3.5 特征参数39-46
  • 3.5.1 概述39
  • 3.5.2 基音周期39-41
  • 3.5.3 Mel频率倒谱系数(MFCC)41-43
  • 3.5.4 线性预测倒谱系数(LPCC)43-46
  • 3.6 说话人识别的方法46-51
  • 3.6.1 概述46
  • 3.6.2 矢量量化方法(VQ)46-47
  • 3.6.3 隐马尔可夫模型方法(HMM)47-49
  • 3.6.4 高斯混合模型方法(GMM)49-50
  • 3.6.5 人工神经网络方法(ANN)50-51
  • 3.7 本章小结51-52
  • 第四章 基于鲁棒性的说话人识别算法研究与实现52-66
  • 4.1 语谱图的介绍52-53
  • 4.2 基于改进的频谱时间接受域(STRF)特征提取53-58
  • 4.2.1 听觉系统53-54
  • 4.2.2 STRFs概述54-55
  • 4.2.3 早期听觉系统模型55-56
  • 4.2.4 初级听觉皮质(A1)模型56-58
  • 4.2.5 基于STRF的特征提取58
  • 4.3 基于改进的GMM的说话人识别58-63
  • 4.3.1 改进的EM算法58-59
  • 4.3.2 遗传算法59-60
  • 4.3.3 改进的遗传算法60-62
  • 4.3.4 将改进的EM算法应用于GMM模型62-63
  • 4.3.5 将改进的遗传算法应用于GMM模型63
  • 4.4 将改进的STRF应用于改进GMM的说话人识别63-64
  • 4.5 本章小节64-66
  • 第五章 基于QT的说话人识别系统的设计与实现66-72
  • 5.1 说话入识别系统实现66-68
  • 5.1.1 编译过程66-67
  • 5.1.2 交叉编译与下载67-68
  • 5.2 硬件实现68-71
  • 5.3 本章小结71-72
  • 第六章 总结与展望72-74
  • 6.1 总结72
  • 6.2 展望72-74
  • 致谢74-76
  • 参考文献76-82
  • 攻读硕士学位期间发表的论文82

【参考文献】

中国期刊全文数据库 前1条

1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期



本文编号:749164

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/749164.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf489***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com