多人会话语音中的说话人角色分析

发布时间:2017-05-16 08:10

  本文关键词:多人会话语音中的说话人角色分析,由笔耕文化传播整理发布。


【摘要】:语音处理的重点正逐步从独白语音处理转向多人会话语音处理。多人会话语音中出现了独白语音所没有的重要信息:说话人数、说话人角色、说话人关键程度、重叠语音等。这些信息对多人会话语音的语义理解和检索非常重要。如何有效分析海量的多人会话语音并从中提取上述重要信息,已成为目前语音处理领域的研究热点。本文以多人会话语音作为研究对象,重点关注多人参与的讨论会语音、高峰论坛语音、领导人的新闻发布会语音及演讲语音;主要研究说话人谱聚类、关键说话人估计、关键说话人同源确认、说话人角色聚类、重叠语音检测等问题,旨在从海量多人会话语音中提取更多的说话人信息,拓展目前语音处理系统的功能。本文的主要工作及贡献如下:(1)针对当前谱聚类方法对信源空间分布描述不够准确,提出一种基于模型距离的说话人谱聚类算法。利用大量说话人无关语音样本建立一个通用背景模型,并在此通用背景模型的基础上为每个语音段训练一个高斯混合模型,最终采用各语音段的高斯混合模型之间的距离构建亲和矩阵,在模型层实现说话人谱聚类。采用新闻联播和论坛、访谈语音作为实验数据,实验结果表明:所提出的算法与目前基于特征矢量距离的说话人谱聚类算法相比,F值提高了6.38%,运算速度约为后者的11.72倍。(2)在(1)的基础上,通过分析说话人语音,提出一种基于多特征组合的方法估计多人会话语音中的关键说话人。首先,对多个特征进行定义,并分析这些特征对关键说话人与其他说话人的差异;然后,提取四个有效的音频特征,构造一个加权判决函数;最后,采用遗传算法对各个特征权重系数进行优化获得最佳加权系数。该方法无需训练复杂的分类器,有效实现多人会话语音中的关键说话人估计。采用三种不同类型的多人会话语音进行评估,实验结果表明:采用优化后的特征权重系数估计关键说话人得到的平均正确率为93.3%,比文献报道的主流方法提高了9.7%,比优化前提高了4.1%。(3)对关键说话人语音进行同源确认,目的是去除被误判为关键说话人的非关键说话人语音,以及找回被误判为非关键说话人的关键说话人语音。为此提出深层说话人矢量的概念,并阐述了深层说话人矢量的构建方法;然后利用深层特征对关键说话人进行同源确认。同源确认分为三个阶段:1)利用浅层特征在被初判为关键说话人的语音里找出最有可能的关键说话人语音;2)利用这些关键说话人语音进行深度学习,训练深层特征和深层说话人矢量;3)使用深层说话人矢量对关键说话人进行确认。最终关键说话人同源确认的错误接受率为1.28%,错误拒绝率为4.79%,该算法能有效地将关键说话人确认出来。(4)在(2)的基础上,为了有效分析不同类型多人会话语音中的说话人角色个数及各角色的说话人语音,定义并提取各个说话人的角色特征;然后,借鉴于半监督学习因为带标签的训练数据很难得到,从而利用其他任务的数据、模型、或者没有标签的数据来提升算法的性能,提出利用待聚类音频文件数据与其它音频文件数据共同建立图模型,并采用该图模型上的测地距离来衡量单个音频文件中说话人样本之间的相似度,进而提升无监督聚类的性能;接着,针对层次聚类的不足,提出一种利用类内距离控制类间合并的说话人角色聚类算法。最后,采用四种不同类型多人会话语音对说话人角色聚类方法进行性能评估,实验结果表明:该方法能有效解决多说话人角色聚类问题,为后续说话人检索、说话人高层语义信息提取奠定坚实基础。(5)为了消除重叠语音对多人会话语音的说话人分割聚类所产生的负面影响,针对目前重叠语音检测方法所采用特征的不足,阐述短时语音分形维数特征的提取方法,分析分形维数对重叠语音与单人语音的区分性能,并提出一种基于分形维数的重叠语音检测方法。实验结果表明:美尔频率倒谱系数特征与分形维数特征的结合能够达到最高81%的重叠语音辨识率,优于其它传统特征的辨识率。综上所述,本文以多人会话语音作为研究对象,对多人会话语音的说话人谱聚类、关键说话人估计及同源确认、说话人角色聚类、重叠语音检测等问题进行了深入研究,并取得了一些有益的研究成果,为进一步提高多人会话语音分析与检索系统的性能奠定了基础。
【关键词】:说话人角色 说话人谱聚类 关键说话人 同源确认 重叠语音
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
  • 摘要5-7
  • ABSTRACT7-16
  • 主要缩写对照表16-18
  • 第一章 绪论18-29
  • 1.1 选题背景及意义18-19
  • 1.2 国内外研究现状19-24
  • 1.3 实验数据库及实验平台24-26
  • 1.3.1 自建数据库24-25
  • 1.3.2 通用数据库25-26
  • 1.3.3 实验平台26
  • 1.4 论文主要工作及章节安排26-29
  • 1.4.1 论文主要工作26-27
  • 1.4.2 论文章节安排27-29
  • 第二章 基于模型距离的说话人谱聚类29-49
  • 2.1 谱聚类简介29-35
  • 2.1.1 谱图理论29-30
  • 2.1.2 谱图划分准则30-32
  • 2.1.3 谱聚类算法32-35
  • 2.2 基于模型距离的说话人谱聚类35-41
  • 2.2.1 GMM-UBM-MAP结构35-38
  • 2.2.2 有限长观察序列的模型对概率距离38-39
  • 2.2.3 基于模型距离的亲和矩阵39-40
  • 2.2.4 基于模型距离的说话人谱聚类方法40-41
  • 2.3 算法复杂度分析41-42
  • 2.4 实验结果及分析42-48
  • 2.4.1 实验数据42-43
  • 2.4.2 评价指标43
  • 2.4.3 结果及分析43-48
  • 2.5 本章小结48-49
  • 第三章 基于多特征组合的关键说话人估计49-61
  • 3.1 特征区分性分析49-52
  • 3.2 关键说话人估计方法52-56
  • 3.2.1 关键说话人估计52-53
  • 3.2.2 特征加权系数优化53-56
  • 3.3 实验结果及分析56-60
  • 3.3.1 实验设置56-57
  • 3.3.2 结果分析57-60
  • 3.4 本章小结60-61
  • 第四章 基于深层特征的关键说话人同源确认61-77
  • 4.1 深度学习介绍63-66
  • 4.2 深度特征提取器构建66-69
  • 4.3 深层说话人矢量构建69-70
  • 4.4 基于深层特征的关键说话人同源确认70-72
  • 4.4.1 关键说话人语音寻找71
  • 4.4.2 关键说话人同源确认71-72
  • 4.5 实验结果及分析72-76
  • 4.5.1 实验设置72-74
  • 4.5.2 结果分析74-76
  • 4.6 本章小结76-77
  • 第五章 多说话人角色聚类77-93
  • 5.1 相关聚类及距离度量方法78-80
  • 5.1.1 分层聚类78-79
  • 5.1.2 距离度量方法79-80
  • 5.2 不同角色说话人的区分性特征80-81
  • 5.3 说话人角色聚类81-87
  • 5.3.1 改进的测地距离82-85
  • 5.3.2 说话人聚类算法85-87
  • 5.4 实验结果及分析87-92
  • 5.4.1 实验设置87-89
  • 5.4.2 结果分析89-92
  • 5.5 本章小结92-93
  • 第六章 重叠语音检测93-102
  • 6.1 特征定义93-97
  • 6.1.1 传统特征93-95
  • 6.1.2 分形维数95-97
  • 6.2 重叠语音的检测97-100
  • 6.2.1 分形维数特征的提取97-98
  • 6.2.2 重叠与非重叠语音分形维数特征差异98-99
  • 6.2.3 重叠语音检测流程99-100
  • 6.3 实验结果及分析100-101
  • 6.3.1 实验设置100
  • 6.3.2 结果分析100-101
  • 6.4 本章小结101-102
  • 结论102-105
  • 研究总结102-103
  • 后续工作展望103-105
  • 参考文献105-117
  • 攻读博士学位期间取得的研究成果117-119
  • 致谢119-120
  • 附件120

【参考文献】

中国期刊全文数据库 前3条

1 Jia ZHOU;Liang Wen LIAO;;Hausdorf Dimension of Quadratic Rational Julia Sets[J];Acta Mathematica Sinica(English Series);2014年02期

2 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期

3 贾丽会;张修如;;分形理论及在信号处理中的应用[J];计算机技术与发展;2007年09期

中国博士学位论文全文数据库 前2条

1 李艳雄;自然口语语音中非文字音频事件检测方法研究[D];华南理工大学;2009年

2 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年


  本文关键词:多人会话语音中的说话人角色分析,由笔耕文化传播整理发布。



本文编号:370298

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/370298.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2c44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com