基于VQ的室内说话人识别及FPGA实现研究
发布时间:2020-05-08 03:36
【摘要】:语音控制作为一种自然、高效的控制方式,随着智能家居的发展而受到的重视程度越来越高。在智能家居的应用中,说话人识别是关键的技术难题,直接影响人身和财物的安全性。目前,说话人识别系统的研究大多是基于电脑平台实现的,时效性较低,在实际应用中受到限制。本文利用FPGA高性能和低功耗的特点,研究了室内说话人识别算法和说话人识别的硬件实现。室内说话人识别由语音端点检测和矢量量化识别这两部分组成。语音端点检测是系统实现的基础,采用能量统计复杂度算法来实现,针对该算法不适合直接应用于硬件这个问题,在语音信号FFT变换后,本文只根据前半帧数据的谱线能量与其对数值即可计算出一帧数据的信息熵,省略了概率密度的计算过程,然后根据信息熵算出统计复杂度值,最后结合语音能量获得能量统计复杂度值。改进后的能量统计复杂度算法能够一帧一帧地对语音信号进行流水线操作,计算量减少,数据处理效率得到提高,更适合应用在硬件平台上。矢量量化识别的硬件实现过程由特征参数提取、欧氏距离计算、最小失真计算构成。特征参数选择24维梅尔频率倒谱系数,Mel滤波和离散余弦变换均通过查表法参与运算。计算每帧的特征参数与码本中各个码矢的欧氏距离平方误差值,通过时序控制将原本所需要的24个平方运算模块缩减到6个,节约了硬件资源。从每帧的欧氏距离平方误差中选出最小值,与上一帧的最小误差值叠加,在语音结束时用叠加的最小误差值除以有效帧数,获得语音的最小失真,将最小失真与预先设置的阈值比较,最终实现说话人识别。本文以ALTERA公司的EP4CE55F23C8芯片为核心,采用流水线技术在硬件平台上实现说话人识别,实验结果表明:系统的语音端点检测在高信噪比与低信噪比的环境中均有较好的检测效果,测出的有效语音帧数准确,系统响应时间96ms;在实验室环境中,对文本相关的指定说话人识别时,其正确识别率可达到94%;与只设置说话人识别的上限阈值相比,同时设置上限阈值和下限阈值后,可有效降低指定人对自己其他语音的误识率。系统具有效率高、响应快、适用性强的优点,在智能家居领域具有良好的应用前景。图[56]表[9]参[63]
【图文】:
续表 5-1 FFT IP 核接口的性质及作用9 sink_error[1:0] 输入口 输入错误信号,置 0 即可10 source_ready 输入口 下传流模块已准备接受信号时置11 sink_ready 输出口 FFT 已准备好接受信号时置位12 source_error[1:0] 输出口 输出 FFT 变换中出现错误的信13 source_sop 输出口 输出一帧数据的起始信号14 source_eop 输出口 输出一帧数据的终止信号15 source_valid 输出口 数据输出有效标记16 source_exp[5:0] 输出口 输出数据的缩放因子17 source_real 输出口 输出数据的实部18 source_imag 输出口 输出数据的虚部 数据运算的实现本文中,语音数据的乘除、平方、开平方等算术运算直接调用 Quartu 核,但对数运算的 ALTFP_LOG IP 核是浮点运算,在 Quartus II 中例为“log16”的 ALTFP_LOG IP 核,采用单精度浮点数作为输入、输出 资源使用状况如图 5-2 所示。
安徽理工大学硕士学位论文46该模块的FPGA资源使用状况如图5-4所示,消耗FPGA的逻辑元件数为409,相应的,其消耗的存储资源较多。图 5-4 查表法对数运算资源使用状况Figure 5-4 Resource utilization of logarithm in look-up table通过 Modelsim 对该对数运算模块仿真,如图 5-5 所示。对于第 1 个真数 100,其缩放因子 data_exp_6bit 为 0,实际计算的结果为 1024×ln100≈4715.7,,仿真结果为 4716
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN791;TN912.34;TU855
本文编号:2654050
【图文】:
续表 5-1 FFT IP 核接口的性质及作用9 sink_error[1:0] 输入口 输入错误信号,置 0 即可10 source_ready 输入口 下传流模块已准备接受信号时置11 sink_ready 输出口 FFT 已准备好接受信号时置位12 source_error[1:0] 输出口 输出 FFT 变换中出现错误的信13 source_sop 输出口 输出一帧数据的起始信号14 source_eop 输出口 输出一帧数据的终止信号15 source_valid 输出口 数据输出有效标记16 source_exp[5:0] 输出口 输出数据的缩放因子17 source_real 输出口 输出数据的实部18 source_imag 输出口 输出数据的虚部 数据运算的实现本文中,语音数据的乘除、平方、开平方等算术运算直接调用 Quartu 核,但对数运算的 ALTFP_LOG IP 核是浮点运算,在 Quartus II 中例为“log16”的 ALTFP_LOG IP 核,采用单精度浮点数作为输入、输出 资源使用状况如图 5-2 所示。
安徽理工大学硕士学位论文46该模块的FPGA资源使用状况如图5-4所示,消耗FPGA的逻辑元件数为409,相应的,其消耗的存储资源较多。图 5-4 查表法对数运算资源使用状况Figure 5-4 Resource utilization of logarithm in look-up table通过 Modelsim 对该对数运算模块仿真,如图 5-5 所示。对于第 1 个真数 100,其缩放因子 data_exp_6bit 为 0,实际计算的结果为 1024×ln100≈4715.7,,仿真结果为 4716
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN791;TN912.34;TU855
【参考文献】
相关期刊论文 前6条
1 马德新;;智能家居市场中的元器件发展态势[J];电子元件与材料;2014年01期
2 郑晴晴;傅攀;李威霖;;CHMM在滚动轴承故障诊断中的应用研究[J];现代制造工程;2013年12期
3 阙大顺;赵永安;文先林;李蓓;;基于DHMM和VQ的关键词识别系统研究[J];武汉理工大学学报;2011年02期
4 刘君侠;;室内声环境评价指标研究[J];江汉大学学报(自然科学版);2010年04期
5 刘华平;李昕;徐柏龄;姜宁;;语音信号端点检测方法综述及展望[J];计算机应用研究;2008年08期
6 刘峰涛;贺国光;;基于近似熵和统计复杂度的交通流复杂性测度[J];中国公路学报;2007年04期
本文编号:2654050
本文链接:https://www.wllwen.com/jianzhugongchenglunwen/2654050.html