智能数字助听器中声场景分类的研究
发布时间:2020-08-27 08:09
【摘要】:随着社会的不断发展,老龄化问题越来越突出,这促使了人们对耳聋问题的关注,助听器的发展开始受到人们的普遍重视。声场景分类作为智能数字助听器的核心技术,其算法处于信号处理的前端,能够识别出助听器使用者当前的听觉场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。本质上讲,声场景分类属于环境声识别问题,主要包括两个方面:特征提取和分类。特征提取是对声信号进行维数约减,提取出能代表原始信号的数据;而分类是指通过一定方法编码声特征,并与模板数据库进行比对以确定声信号所属类别。本文主要围绕选择性注意模型、传统的HMM模型和深度学习模型来展开对声场景分类的研究。在特征提取方面,本文通过对声信号的语谱图做显著性分析,提取出显著图特征,再将其与传统的MFCC特征进行混合,形成混合特征。在分类器方面,本文分别使用传统的HMM模型和深度学习模型进行分类。本文所做的工作主要有以下几项:1.阐述了声场景分类技术的研究背景和研究现状,分析了现有声场景分类技术的优缺点,并对当前有待深入研究和急需解决的问题进行了说明。2.概述了声场景分类的理论基础,介绍了声场景分类的几个模块,包括预处理模块、特征提取模块、分类器训练模块和测试模块,并介绍了声场景分类特征提取和分类器设计方面的相关知识。3.深入研究了选择性注意模型,包括选择性注意模型的理论和视觉选择性注意模型中的两种常用模型——Itti模型和GBVS模型,并将视觉理论应用于声学中,完成了对声信号语谱图的显著性分析,提取出了声信号的显著图参数。4.利用提取出的显著图参数得到用于分类的特征向量,再提取出声信号的MFCC特征,将二者进行混合,组成混合特征,再利用传统的HMM分类器分别使用单独的显著图特征、单独的MFCC特征和混合特征完成对声场景的分类,并比较各自的分类效果。5.简述了深度学习的发展历程、主要模型和应用,介绍了深度学习常用方法,包括自动编码器、稀疏自动编码器和受限玻尔兹曼机,介绍了 Gibbs采样过程和对比散度算法,将深度学习模型应用于声场景分类过程中,采用两种常用深度学习模型——稀疏自动编码器和深度置信网络组成混合模型,该模型共包括三个部分:前面使用两层稀疏自动编码器进行构造,中间使用一个三层深度置信网络实现,最后使用Softmax回归作为分类器,再分别利用显著图特征、MFCC特征和混合特征进行实验,比较各自的分类结果。
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TH785.1
【图文】:
统、模式识别、人工智能、统计学习等[17)。该领域当前的研宄重点主要集中在特征分析逡逑与提取和分类器的选择这两个方面。逡逑由图2-1可知,声场景分类系统主要由以下几个模块所组成:预处理模块、特征提逡逑取模块、分类器训练模块和测试模块。逡逑预处理 ̄]——■^特征提取逦逡逑预处理 ̄]——特征提取逦逡逑图2-1声场景分类系统结构图逡逑预处理模块主要是为后面的信号处理过程做准备。人耳听到的原始声音都是模拟信逡逑号,但计算机只能处理数字信号,因此要将原始信号转换为计算机可以处理的数字信号。逡逑此外,为了保持一致性,还需要将输入信号转换为统一的规格和存储格式。同时,原始逡逑信号中噪声的存在也会影响分类的结果,因此也需要进行相应的预处理。预处理主要包逡逑括端点检测、预加重、分帧和加窗等。逡逑特征提取模块在整个系统中处于核心地位。该模块的主要功能在于研[偛⑻崛》从冲义仙藕诺奶卣鞑问3【胺掷嘀谐S玫奶卣髦饕ǘ淌蹦芰俊⒐懵省⒕惨袈省⒒怠㈠义掀灯字行摹⒑托扯取⒆哟芰俊ⅲ停疲茫眉捌涠问⑾咝栽げ庀凳蹋校谩ⅲ蹋校玫蛊紫靛义鲜蹋校茫谩⑾咂锥圆问蹋樱小⒍淌逼灯缀凸舱穹迤德实龋郏福荨e义戏掷嗥餮盗纺?榈闹饕δ苁茄≡窈鲜实姆掷嗥髂P停褂靡欢ㄊ康纳【靶藕佩义献魑盗费荆源死慈范ǚ掷嗥髦械牟问怠D壳埃谑臣颇P偷姆掷嗥骶e义衔蠖嗍难绣痴咚褂茫饫喾掷嗥髦饕嗷冢牵停偷姆掷嗥鳌粲冢粒危蔚腻义戏掷嗥鳌⒒冢樱郑偷姆掷嗥骱突冢龋停偷姆掷嗥鳎睿梗薄4送
本文编号:2805847
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TH785.1
【图文】:
统、模式识别、人工智能、统计学习等[17)。该领域当前的研宄重点主要集中在特征分析逡逑与提取和分类器的选择这两个方面。逡逑由图2-1可知,声场景分类系统主要由以下几个模块所组成:预处理模块、特征提逡逑取模块、分类器训练模块和测试模块。逡逑预处理 ̄]——■^特征提取逦逡逑预处理 ̄]——特征提取逦逡逑图2-1声场景分类系统结构图逡逑预处理模块主要是为后面的信号处理过程做准备。人耳听到的原始声音都是模拟信逡逑号,但计算机只能处理数字信号,因此要将原始信号转换为计算机可以处理的数字信号。逡逑此外,为了保持一致性,还需要将输入信号转换为统一的规格和存储格式。同时,原始逡逑信号中噪声的存在也会影响分类的结果,因此也需要进行相应的预处理。预处理主要包逡逑括端点检测、预加重、分帧和加窗等。逡逑特征提取模块在整个系统中处于核心地位。该模块的主要功能在于研[偛⑻崛》从冲义仙藕诺奶卣鞑问3【胺掷嘀谐S玫奶卣髦饕ǘ淌蹦芰俊⒐懵省⒕惨袈省⒒怠㈠义掀灯字行摹⒑托扯取⒆哟芰俊ⅲ停疲茫眉捌涠问⑾咝栽げ庀凳蹋校谩ⅲ蹋校玫蛊紫靛义鲜蹋校茫谩⑾咂锥圆问蹋樱小⒍淌逼灯缀凸舱穹迤德实龋郏福荨e义戏掷嗥餮盗纺?榈闹饕δ苁茄≡窈鲜实姆掷嗥髂P停褂靡欢ㄊ康纳【靶藕佩义献魑盗费荆源死慈范ǚ掷嗥髦械牟问怠D壳埃谑臣颇P偷姆掷嗥骶e义衔蠖嗍难绣痴咚褂茫饫喾掷嗥髦饕嗷冢牵停偷姆掷嗥鳌粲冢粒危蔚腻义戏掷嗥鳌⒒冢樱郑偷姆掷嗥骱突冢龋停偷姆掷嗥鳎睿梗薄4送
本文编号:2805847
本文链接:https://www.wllwen.com/kejilunwen/yiqiyibiao/2805847.html