数字音乐语音智能评判方法研究与实现
本文选题:数字音乐语音 + 哼唱识别 ; 参考:《福州大学》2014年硕士论文
【摘要】:随着音乐娱乐的普及和发展,数字音乐语音智能处理研究受到广泛关注。音乐演唱的音准音高智能评分,已经在不少音乐娱乐软件产品中推广应用。但针对音乐语音的哼唱识别、演唱的情感识别等,尚处于起步阶段,还需要进一步扩展计算机智能评判的方法。相较普通说话语音,数字音乐语音具有单字发音时长变化范围广、发音受歌曲节奏影响大、语音处理的实时性要求高等特点。传统语音处理方法在数字音乐的应用效果并不理想,如音乐语音分割无法将单字准确切分开,传统语音处理选取特征的方法无法有效适用于音乐语音识别。针对单字发音时长变化范围广的特点,本文提出了基于信息熵的哼唱识别算法和基于粒子群优化的数字音乐语音分割算法。信息熵分割算法对于哼唱时发音无停顿的特点十分敏感,利用该算法能够准确检测出在KTV唱歌的过程中有人利用哼唱获取高分的情况;传统端点检测技术难以适应数字音乐语音节奏变化快、发音间隔不规律、字与字之间的连续无停顿或停顿间隔不明显等特点,因此本文提出了利用粒子群优化对未完全分割开的多个字进行细分的方法,该方法能够智能地判断一个长语音段所包含的字数并准确地找到每一个字发音的起始位置和结束位置,在有噪音干扰的条件下同样适用。实验结果表明,上述两种算法能够有效准确处理数字音乐语音,提高音乐语音的分割准确率。目前对于语音情感识别的研究没有找到某种特征能够非常典型的、单独表示和区分不同情感,因此需要从现有已知的特征中选择合适的特征用于情感识别。本文提出了一种基于DTW系数与SVM投票机制的数字音乐语音情感识别算法,该算法考虑音乐语音的音质特征和韵律特征,利用DBC系数从备选特征中提取出类间相似度小、类内相似度大的特征,然后建立不同的二分SVM分类器,对每一个样本进行分类决策,最后统计每个分类器的结果,得票数最多的情感即为识别结果。通过与Fisher准则提取特征的SVM分层语音情感识别算法的对比试验表明,由于消除了不同情感样本数不同对Fisher投影区域的影响及分层算法累积误差的影响,本文提出的基于DBC系数与SVM投票机制的数字音乐语音情感识别算法有效地提高了识别准确率。最后,本文将上述算法实现并封装成模块加入KTV评分系统。本文考虑数字音乐语音与正常说话的不同,提出的音乐语音哼唱检测、分割算法和情感识别算法弥补传统算法的不足,具有较高的研究价值和广阔的发展前景。
[Abstract]:With the popularity and development of music entertainment, the research of digital music speech intelligent processing has received extensive attention. Music singing pitch intelligence score, has been used in many music entertainment software products. However, the humming recognition of musical speech and the emotion recognition of singing are still in the initial stage, and the methods of computer intelligent evaluation need to be further expanded. Compared with ordinary speech speech, digital music speech has the characteristics of wide range of changes in the duration of single word pronunciation, great influence of song rhythm on pronunciation, and high real-time requirement of speech processing. The application effect of traditional speech processing method in digital music is not ideal, such as music speech segmentation can not accurately separate words, traditional speech processing method of feature selection can not be effectively applied to music speech recognition. Aiming at the wide range of pronunciation time, this paper proposes a humming recognition algorithm based on information entropy and a digital music speech segmentation algorithm based on particle swarm optimization (PSO). The information entropy segmentation algorithm is very sensitive to the feature of no pause in the pronunciation of humming. Using this algorithm, it can accurately detect the situation that someone gets high score by humming in the process of singing by KTV. The traditional endpoint detection technique is difficult to adapt to the characteristics of fast change of digital music voice rhythm, irregular pronunciation interval, continuous non-pause between words or not obvious pause interval, etc. In this paper, a particle swarm optimization (PSO) method is proposed to subdivide several words with incomplete segmentation. This method can intelligently judge the number of words contained in a long speech segment and accurately find the starting and ending position of each word, which is also applicable in the case of noise interference. The experimental results show that the two algorithms can deal with digital music speech accurately and improve the segmentation accuracy of music speech. At present, the research on speech emotion recognition has not found that a certain feature can be very typical, which can express and distinguish different emotions separately, so it is necessary to select suitable features from existing known features for emotion recognition. In this paper, an emotion recognition algorithm for digital music speech based on DTW coefficient and SVM voting mechanism is proposed. The algorithm takes into account the sound quality and prosodic features of music speech, and uses DBC coefficient to extract small similarity between classes from the alternative features. Then different binary SVM classifiers are established to make classification decisions for each sample. Finally, the results of each classifier are counted, and the emotion with the most votes is the recognition result. By comparing with the SVM hierarchical speech emotion recognition algorithm based on Fisher criterion, it is shown that the influence of different number of emotional samples on Fisher projection region and the cumulative error of layered algorithm are eliminated. An emotion recognition algorithm for digital music speech based on DBC coefficient and SVM voting mechanism is proposed in this paper. Finally, the above algorithm is implemented and encapsulated into a KTV scoring system. Considering the difference between digital music speech and normal speech, this paper puts forward the music speech humming detection, segmentation algorithm and emotion recognition algorithm to compensate for the shortcomings of the traditional algorithm, which has high research value and broad development prospects.
【学位授予单位】:福州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 ;数字音乐随身听[J];数字通信;2001年06期
2 ;音乐界第二次浪潮 数字音乐革命即将爆发?[J];新电脑;2003年07期
3 单恺韬;;是谁砸掉了数字音乐的市场[J];数字通信;2006年06期
4 易华;;数字音乐未来之猜想[J];多媒体世界;2006年07期
5 ;数字音乐交易额19.2亿元同比增长130%[J];电子商务;2006年04期
6 聂雪松;;汉铭将推数字音乐解决方案[J];通信世界;2007年38期
7 袁雪峰;;盗版:数字音乐产业发展的最大阻碍[J];视听界;2011年06期
8 甘霖;;咪咕音乐携手新浪微博数字音乐深耕细作酝酿大格局[J];通信与信息技术;2013年06期
9 ;拥有自己的数字音乐[J];数字生活;2002年01期
10 学文;享受贴身的数字音乐[J];电脑技术;2000年06期
相关会议论文 前2条
1 朱慧;;数字音乐的共享与分配:一个文献综述[A];2008年度(第六届)中国法经济学论坛论文集(下)[C];2008年
2 陈戈;;寻找优秀用户体验的正版数字音乐商业模式[A];新媒体:竞合与共赢[C];2007年
相关重要报纸文章 前10条
1 金朝力;中国数字音乐重划利益版图[N];北京商报;2007年
2 李国训;付费下载音乐走上绝路[N];财经时报;2007年
3 于祥明;数字音乐持续“冬眠”[N];中国文化报;2007年
4 昊悦;海峡两岸联手力推正版数字音乐[N];大众科技报;2007年
5 严永浩;全球数字音乐市场快速成长[N];国际商报;2007年
6 吴加录;像卖矿泉水一样卖数字音乐[N];中国计算机报;2007年
7 余晓萍;试水数字音乐 闪联图谋数字家庭先机[N];中国计算机报;2007年
8 ;美国数字音乐非法下载量增24%[N];人民邮电;2007年
9 于祥明邋袁媛;数字音乐持续“冬眠” 风投热情大减[N];上海证券报;2007年
10 深圳商报记者 马剑芳;未来数字音乐市场商机无限[N];深圳商报;2007年
相关硕士学位论文 前10条
1 王嘉宁;我国数字音乐产业链研究[D];北京印刷学院;2009年
2 严俊清;数字音乐作品的著作权许可研究[D];兰州大学;2015年
3 张馨予;网络信息环境下的数字音乐版权保护模式探究[D];上海音乐学院;2015年
4 胡显玉;数字音乐质量软件噪声监测及合规性检测模块开发[D];电子科技大学;2014年
5 李进;YL公司原创数字音乐平台商业计划书[D];华南理工大学;2015年
6 韩时;数字音乐作品著作权法律保护机制研究[D];吉林大学;2015年
7 谢志成;数字音乐语音智能评判方法研究与实现[D];福州大学;2014年
8 马辉;论数字音乐作曲[D];中央民族大学;2008年
9 陈国俊;数字音乐商务模式创新初探[D];厦门大学;2006年
10 孙伟;滚石移动集团数字音乐发展战略研究[D];天津大学;2012年
,本文编号:1840686
本文链接:https://www.wllwen.com/kejilunwen/wltx/1840686.html