当前位置:主页 > 科技论文 > 软件论文 >

基于凝聚信息瓶颈的音频事件聚类方法

发布时间:2019-08-01 19:36
【摘要】:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出一种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值),而且运算速度更快.
【图文】:

基于凝聚信息瓶颈的音频事件聚类方法


合概率分布表示数据,以互信息(MutualInformation)作为度量手段,刻画样本和样本属性的相关性,不需要对样本之间的距离函数做任何假设[20,21].它可以描述为:给定源变量X和相关变量Y的联合概率分布P(X,Y),把源变量X(待聚类样本)所包含信息压缩到目标变量C(聚类结果)时,最大化保留目标变量C与相关变量Y之间的互信息I(Y,C)即尽可能保留相关结构,同时尽量压缩源变量X与目标变量C之间的互信息I(C,X)即尽可能压缩数据.在压缩数据和保留相关结构的过程中,目标变量C就相当于源变量X和相关变量Y之间的瓶颈,如图1所示.信息瓶颈方法试图寻找关于相关变量Y的信息最大压缩与最大保留之间的折衷,相当于最大化下述目标函数:F=I(Y,C)-1βI(C,X)(1)其中β是拉格朗日乘子,用来平衡互信息I(Y,C)和互信息I(C,X)使得目标函数F达到最大.I(Y,C)和I(C,X)分别定义为:I(Y,C)=∑y∈Y,c∈Cp(c)p(y|c)logp(y|c)p(y)(2)I(C,X)=∑x∈X,c∈Cp(x)p(c|x)logp(c|x)p(c)(3)随机变量X~p(x)的熵H(X)定义为:H(X)=H[p(x)]=-∑x∈Xp(x)logp(x)(4)二维随机变量(X,C)~p(x,c)的二维联合熵H(X,C)定义为:H(X,C)=H[p(x,c)]=-∑x∈X∑c∈Cp(x,c)logp(x,c)(5)在给定X时,关于X的条件熵H(C|X)定义为:H(C|X)=-∑x∈X∑c∈Cp(x,c)logp(c|x)=-∑x∈Xp(x)∑c∈Cp(c|x)logp(c|x)(6)互信息I(X,C)与熵的关系:I(X,C)=H(C)-H(C|X)=H(X)-H(X|C)(7)目标函数F的解空间(详见文献[19]):1065

基于凝聚信息瓶颈的音频事件聚类方法


第 5 期 李艳雄: 基于凝聚信息瓶颈的音频事件聚类方法4. 2 实验结果采用表 2 调参数据集确定各方法参数最优值,测试数据集用于评估各方法性能. 基于特征距离和基于模型距离的谱聚类方法的尺度因子 σ 分别为 2 和 15.基于 AHC + BIC 方法的 BIC 惩罚系数为 2.4. 2. 1 本文方法参数的确定拉格朗日乘子 β 用来平衡聚类过程中信息的保留与压缩程度,其取值影响聚类结果. K 与 β 的关系如图2 所示. 随着 β 的变化,K 值跟着变化,当 β = 11 时,获得最高的 K 值.间值时( 例如 β = 11) ,K 值随着 Nc的变化也会出现较大变化. 在 Nc取值为[12 20],,K 值很高,且当 Nc= 14时,K 值达到最大. 最优聚类类别数 Nc为 14. 图 4 给出了 K 值与门限 TI的关系. 当 TI= 0. 63 时,K 值达到最大. 因此,本文方法的参数设置为: 拉格朗日乘子 β =11,互信息比值门限 TI= 0. 63,聚类后最大的类别数Nmax= 20. Nmax的取值不小于最优聚类类别数( Nc= 14) .1069
【作者单位】: 华南理工大学电子与信息学院;
【基金】:国家自然科学基金(No.61101160) 中央高校基本科研业务费专项资金重点项目(No.2015ZZ102) 广州市珠江科技新星专项(No.2013J2200070)
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 ;音频软件面面观[J];信息技术教育;2005年04期

2 冰河;;看高清别忘了音频设置[J];电脑迷;2009年06期

3 明廷堂;;一种音频指纹构建与搜索架构的实现[J];电脑编程技巧与维护;2013年07期

4 ;新型音频编解码软件驱动器改善音频能力[J];电子设计技术;2006年11期

5 唐秀林;;Nuendo音频片段的编辑[J];音响技术;2007年08期

6 郭华帅;王晖;李传珍;;音频原声变速软件的设计与应用[J];广播与电视技术;2008年01期

7 张德成;;巧用Nero Wave Editor进行音频编辑[J];中小学电教;2005年12期

8 冯树奂;张金丰;;音频软件的教学应用[J];信息技术教育;2006年12期

9 王广科;;几种常用的音频处理方法[J];中小学电教;2011年03期

10 ;电脑前的“口述实录”——音频的录制与编辑[J];新电脑;2004年02期

相关硕士学位论文 前10条

1 尹翠微;初级音频处理软件界面设计的图形语言研究[D];北京理工大学;2015年

2 林平;基于音乐特征解析的音乐喷泉展示系统的设计与实现[D];电子科技大学;2014年

3 王宇;新闻通讯社音频移动报道系统设计与实现[D];天津大学;2014年

4 李树春;广播音频编辑与制作软件的设计与实现[D];电子科技大学;2009年

5 王润涛;海量音频指纹数据的存储与检索研究[D];天津大学;2014年

6 潘敏;音频盾的设计与实现[D];中国科学院大学(工程管理与信息技术学院);2014年

7 王运生;基于内容的海量音频高效检索[D];太原理工大学;2014年

8 王晓霞;基于音频特征的收视率调查系统及检索算法研究[D];山东大学;2011年

9 卢晓晶;广播电台音频节目采集与管理系统的设计与实现[D];东北大学;2010年

10 孟建华;基于听觉滤波器的音频感知哈希算法及其在音乐检索中的应用[D];华东理工大学;2015年



本文编号:2521947

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2521947.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1814f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com