基于语音识别的动画人物唇同步系统
本文选题:隐马尔可夫模型 + 语音识别 ; 参考:《浙江大学》2008年硕士论文
【摘要】: 随着国内市场对动漫产品需求的不断增长,以及国家对动漫产业的大力扶持,我国的动漫产业进入了一个高速成长期。唇同步是动画制作中不可或缺的一个环节,但是传统的唇同步方法完全由人工来实现,非常繁琐,效率很低。并且唇同步的质量得不到保证,完全依赖于制作人员的经验。所以,我们需要一种技术来帮助动画制作人员摆脱这一繁琐的工作,同时提高唇同步的质量。 本文应用基于隐马尔可夫模型的语音识别技术来解决动画的唇同步问题。通过对语音识别技术的研究,以及对唇同步问题的分析,我们找到了用语音识别技术解决动画人物唇同步问题的切入点:用语音识别技术来获取语音中每个字的时间信息。 基于这个想法,我们设计了两种解决动画人物唇同步问题的方法。第一种方法通过直接应用识别算法来获取每个字的时间信息。第二种方法根据语音文本构建一个组合模型,然后在组合模型上应用Viterbi算法,在计算过程中获取每个字的时间信息。这两种方法都可以有效地解决动画的唇同步问题,但是和第一种方法相比,第二种方法有效地减少了计算量并且不存在识别错误的问题,因而在计算效率和唇同步的效果上都要优于第一种方法。 最后,本文基于第二种方法实现了一个唇同步系统,并探讨了实现中的关键问题:如何根据系统特点确定模型结构,如何选择合适的识别单元,如何根据系统特点修改一般化的算法使其在我们的系统中正常的工作,如何对语音信号进行参数化。
[Abstract]:With the increasing demand of animation products in the domestic market and the strong support of the country to animation industry , China ' s animation industry has entered a high - speed long - term . The lip synchronization is an indispensable link in animation production , but the quality of lip synchronization is not guaranteed . It depends entirely on the experience of the producers . Therefore , we need a technique to help animation producers get rid of this complicated job while improving the quality of lip synchronization .
In this paper , the speech recognition technology based on hidden Markov model is applied to solve the lip synchronization problem of animation . Through the research of speech recognition technology and the analysis of lip synchronization problem , we find out the entry point for solving the problem of lip synchronization by using speech recognition technology : the speech recognition technology is used to acquire the time information of each word in the speech .
Based on this idea , we design two methods to solve the lip synchronization problem of cartoon characters . The first method obtains the time information for each word by applying the recognition algorithm directly . The second method can effectively solve the lip synchronization problem of the animation by applying the Viterbi algorithm on the combined model . However , the second method effectively reduces the calculation amount and does not have the problem of identifying errors . Therefore , the second method is superior to the first method in calculating efficiency and labial synchronization .
Finally , based on the second method , a lip synchronization system is realized and the key problem in the realization is discussed : how to determine the model structure according to the characteristics of the system , how to select the proper identification unit , how to modify the generalized algorithm according to the characteristics of the system makes it work normally in our system , and how to parameterization the speech signal .
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.42
【共引文献】
相关期刊论文 前10条
1 罗云贵;张友纯;;嵌入式语音门禁系统的设计与实现[J];安防科技;2010年02期
2 张道信,周爱毓;语音信号实时降噪软件的设计[J];安徽大学学报(自然科学版);2004年04期
3 孔令志;罗森林;张冰;王耀威;;纯音乐与语音-音乐混合片段的高准确识别方法[J];北京理工大学学报;2009年01期
4 吕伟军;何为;;一种基于径向基函数神经网络的语音降噪方法[J];北京工商大学学报(自然科学版);2008年04期
5 高伟;;基于说话人识别的门禁系统的设计[J];才智;2012年12期
6 张丽丽;杜鹃;贾亮;;改进的支持向量机SMO算法说话人识别系统研究[J];长春理工大学学报(自然科学版);2009年02期
7 张常年;夏日升;姜岩峰;;一种基于低比特率语音算法的芯片设计与分析[J];电讯技术;2007年05期
8 蒋永生;张雄伟;闵刚;刘光云;陈功;;基于改进的MFCC战场被动声目标识别[J];弹箭与制导学报;2008年06期
9 白顺先;马瑞士;;语音端点检测中判决机制的研究[J];大连民族学院学报;2010年03期
10 李薇;胡智奇;尚秋峰;戚银城;;语音质量客观评价方法的研究[J];电力系统通信;2009年04期
相关会议论文 前10条
1 闵刚;蒋永生;杨吉斌;张雄伟;;分段声码器中的语音分段算法研究[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
2 张骞;徐俊佳;;基于SPCE061A的声控车库门的设计[A];河南省土木建筑学会2010年学术大会论文集[C];2010年
3 王浩;宋巍;岳振军;;语音信号的傅立叶-贝赛尔展开及其特性初探[A];全国第一届嵌入式技术联合学术会议论文集[C];2006年
4 闫佩君;陈亮;;基于小波高频分形维数的语音隐藏方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 王建波;林本浩;田春明;刘睿;;语音增强及其相关技术研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
6 王建波;蒋新斌;林本浩;田春明;陈倡;;回波抵消中的自适应算法研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
7 张宇;庞福文;;海上VHF通信中语音压缩编码的研究[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年
8 王建波;林本浩;蒋新斌;刘睿;崔俊海;;语音通信中的回波抵消技术研究[A];中国通信学会第五届学术年会论文集[C];2008年
9 刘静萍;德熙嘉措;;安多藏语辅音识别的设计[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 于洪志;李永宏;索南楞次;仁青多杰;李毛吉;;安多藏语单音节声学参数数据库研究探讨[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
相关博士学位论文 前10条
1 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
2 刘柏森;基于HHT复杂环境下低信噪比语音检测及增强方法研究[D];哈尔滨工程大学;2011年
3 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
4 丁琦;数字音频篡改检测与隐写分析技术研究[D];解放军信息工程大学;2011年
5 郑建明;基于HMM的多特征融合钻头磨损监测技术的研究[D];西安理工大学;2004年
6 李波;语音转换的关键技术研究[D];国防科学技术大学;2005年
7 马跃洲;基于电弧声信号的CO_2焊质量监控方法研究[D];兰州理工大学;2005年
8 田立斌;语音通信质量客观评价、有效接收及错误恢复算法研究[D];华南理工大学;2004年
9 马晓红;传声器阵列语音增强中关键技术的研究[D];大连理工大学;2006年
10 雷建军;噪声鲁棒语音识别中若干问题的研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
2 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
3 曹唯伟;基于拼音编码的水下语音通信发射端的设计与实现[D];哈尔滨工程大学;2010年
4 徐雯;VDR音频数据数字水印算法研究[D];哈尔滨工程大学;2010年
5 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
6 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
7 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
8 杨文强;基于AMBE-2000的OFDM水声语音通信平台研究[D];哈尔滨工程大学;2010年
9 陈伟伟;基于鼾声检测的睡眠呼吸暂停低通气综合症诊断[D];大连理工大学;2010年
10 刘伯权;欠定卷积混合语音信号盲分离研究[D];湘潭大学;2010年
,本文编号:1752764
本文链接:https://www.wllwen.com/wenyilunwen/dongmansheji/1752764.html