当前位置:主页 > 科技论文 > 网络通信论文 >

基于唇读技术的自动语音识别系统设计与实现

发布时间:2018-01-22 16:24

  本文关键词: 自动语音识别 唇读 卷积核 滤波器 数据库 出处:《电子科技大学》2014年硕士论文 论文类型:学位论文


【摘要】:在自动语音识别系统的领域,大多数的研究都集中在声波信号上。但在现实世界中,由于噪音的存在,这些系统的性能很难达到预期的效果。因此,利用视觉信息在改善语音识别系统的性能方面起到了非常重要的作用,尤其是在噪音环境下。本论文将主要针对利用视觉信息来进行的唇读技术研究。之前的研究表明,唇型的提取主要有两种方法。第一种是基于模型或几何的方法,例如,由于唇动导致唇部位置的偏差,可以从图像中提取唇部的宽度和高度等特征值。第二种是基于像素和动态的方法,通过获得原始像素值和强度值。第一种方法虽然比较直观,但是由于涉及数据的流失,可能会造成大量信息的丢失。第二种方法虽然基本没有信息丢失,但是高维度的图像空间可能会造成计算上的弱势。本论文将采用基于模型的方法进行唇型的识别,测量出的内唇宽度和高度可以代表不同的唇型。由于内唇的区域相比于其它唇部区域较暗,因此可以很容易对唇部特征进行提取并节省计算时间。利用这一优点,可以设计一个空间滤波器来增强内唇区域的对比度。虽然此系统中滤波器的使用方法并非常用的方法,但是其性能的表现还是令人满意的,同时,这种增强技术还可以应用到其它的区域。图像对比度增强之后,可以使用一个高斯滤波器来消除噪音的影响,从而获得一个清晰的内唇轮廓图。另外,可以采用4种不同的卷积核对内唇的宽度和高度进行测量,并用得到的数据建立一个数据库,来告诉系统单字和数据是如何相互对应的。数据库建立完成后,系统就能识别视频文件中的单字和由多字组成的单词。当一个视频文件导入到系统中后,系统会对每个图像进行处理并与数据库中的数据相对比。最终,系统通过计算与数据库中数据的最小偏差来显示识别的结果。虽然该识别技术取得了一些成绩,但还是存在一些潜在的局限性,如对工作环境以及头部位置摆放的要求。
[Abstract]:In the field of automatic speech recognition systems, most of the research is focused on acoustic signals, but in the real world, due to the existence of noise, the performance of these systems is difficult to achieve the desired results. The use of visual information plays a very important role in improving the performance of speech recognition system. Especially in the noise environment. This paper will mainly focus on the use of visual information to carry out lip reading technology. Previous studies show that. There are two main methods to extract lip shape. The first is model-based or geometric method, for example, the lip position deviation due to lip movement. The width and height of lips can be extracted from the image. The second method is based on pixel and dynamic, by obtaining the original pixel value and intensity value. The first method is more intuitive. However, due to the loss of data, a large number of information may be lost. The second method, although there is basically no loss of information. However, high-dimensional image space may cause computational weakness. This paper will adopt model-based approach to lip recognition. The measured width and height of the inner lip can represent different types of lips, because the region of the inner lip is darker than that of the other lip regions. Therefore, it is easy to extract lip features and save computing time. A spatial filter can be designed to enhance the contrast of the inner lip region. Although the use of the filter in this system is not commonly used, the performance of the filter is still satisfactory and at the same time. This enhancement technique can also be applied to other regions. After the image contrast is enhanced, a Gao Si filter can be used to eliminate the noise effect, thus obtaining a clear outline of the inner lip. We can measure the width and height of inner lip by four different convolution check, and set up a database with the obtained data to tell the system how words and data correspond to each other. When a video file is imported into the system, each image is processed and compared with the data in the database. The system displays the recognition result by calculating the minimum deviation between the data in the database. Although the recognition technology has made some achievements, there are still some potential limitations. Such as the working environment and head position requirements.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.34

【相似文献】

相关期刊论文 前9条

1 柴秀娟;姚鸿勋;高文;王瑞;;唇读识别中的基本口型分类[J];计算机科学;2002年02期

2 赵燕燕;王丽荣;;唇读技术及其最新发展研究概述[J];长春大学学报;2007年10期

3 陈蓉;姚鸿勋;洪晓鹏;万玉奇;;视觉单通道唇读系统的有效性[J];计算机工程与应用;2007年20期

4 姚鸿勋,高文,王瑞,郎咸波;视觉语言——唇读综述[J];电子学报;2001年02期

5 单卫,姚鸿勋,高文;唇读中序列口型的分类[J];中文信息学报;2002年01期

6 张泽梁;杨成佳;宋绍成;;唇读研究进展综述[J];计算机工程与设计;2014年06期

7 王丹;姚鸿勋;万玉奇;洪晓鹏;;唇读中的HLM模型及其文字流解析[J];计算机科学;2008年12期

8 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期

9 ;[J];;年期

相关会议论文 前7条

1 高文;王瑞;姚鸿勋;;唇读和语音融合识别系统设计[A];第五届全国人机语音通讯学术会议论文集[C];1998年

2 姚鸿勋;王晶;山世光;张洪明;王瑞;;唇读系统中的话者唇定位与跟踪[A];第五届全国人机语音通讯学术会议论文集[C];1998年

3 单卫;姚鸿勋;高文;;唇读中序列口型的分类[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 徐铭辉;姚鸿勋;;唇读及其在生物特征识别中的作用[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年

5 何俊;张华;;一种唇读嘴唇的实时检测方法[A];第二十六届中国控制会议论文集[C];2007年

6 王晓平;付德刚;袁春伟;;一种面向唇读的彩色人脸图像唇部定位方法[A];第十三届全国图象图形学学术会议论文集[C];2006年

7 雷江华;;助听器对听障学生唇读汉字语音认知的作用研究[A];第十届全国心理学学术大会论文摘要集[C];2005年

相关博士学位论文 前4条

1 何俊;服务机器人语音唇读人机交互技术研究[D];南昌大学;2009年

2 张泽梁;唇读识别中若干问题的研究[D];吉林大学;2012年

3 雷江华;听觉障碍学生唇读汉字语音识别的实验研究[D];华东师范大学;2006年

4 梁亚玲;基于单视觉通道唇读系统的研究[D];华南理工大学;2011年

相关硕士学位论文 前10条

1 吴迪;口型识别与唇读算法研究[D];北京交通大学;2015年

2 王丹;唇读的静动态特征表示方法研究[D];哈尔滨工业大学;2008年

3 万玉奇;提高唇读理解的关键技术研究[D];哈尔滨工业大学;2007年

4 陶宏;基于视频图像的唇读识别技术的研究[D];江苏大学;2005年

5 解国明;唇读技术的研究及其应用[D];天津大学;2005年

6 杨帆;基于动静态多源特征选取、对齐与融合的唇读方法[D];哈尔滨工业大学;2010年

7 闫龙;基于隐含马尔可夫模型的计算机唇读算法研究[D];哈尔滨工业大学;2013年

8 刘恒;基于唇读技术的自动语音识别系统设计与实现[D];电子科技大学;2014年

9 李新;唇读识别系统的研究与实现[D];华北电力大学(北京);2011年

10 张欣;基于HMM的唇读识别技术研究[D];哈尔滨工业大学;2013年



本文编号:1455160

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/1455160.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc221***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com