基于语种识别系统的语言距离关系研究
本文选题:语言距离关系 + 语种识别 ; 参考:《浙江大学》2016年硕士论文
【摘要】:本文主要的研究内容为使用语音数据来研究语言之间的距离关系。对于语言距离关系的定义,语言学家通过语言是否同源以及语言之间发音、字词、语法规则的对应关系来研究语言之间的距离关系,最终生成语言谱系树来反映语言的从属关系,这属于定性研究;经济学家将语言之间的距离定义为母语为一种语言的人学习其他语言的难易程度,这属于定量研究。不论是在文化还是经济领域,语言距离关系的研究都具有一定的应用价值。本文通过语种识别系统的输出——识别率来定义语言之间的距离关系,其中最关键的就是语种识别系统的搭建,它直接关系到语言之间距离关系的可靠程度。语种识别系统的搭建主要包括特征提取和模型训练两部分。在特征提取部分,本文先提取输入语音信号的56种声学特征以及它们的一阶、二阶差分值,然后使用39种统计函数来描述这些声学特征,最终生成6552维特征向量;在模型训练部分,本文采用区分性建模方法——Gentle AdaBoost算法。最后将语言距离矩阵映射到二维平面,生成语言关系图,直观的反映了语言之间的距离关系。本文的主要研究成果包括:(1)本文使用语音数据来研究语言之间的距离关系。通过语种识别系统的输出——识别率来定义语言之间的距离,并将本文得到的语言距离与之前语言学家和经济学家的研究成果作比较,实验表明本文的距离度量方法与之前的研究成果较为一致。(2)在语种识别系统的搭建中,采用一种全新的方法提取输入语音信号的特征,该方法与以往的方法最大的不同在于,一个输入语音样本对应一个特征向量,而不再是每一帧都对应一个特征向量。然后采用Gentle AdaBoost算法训练语言模型,在OGI数据库和NIST LRE15数据库上进行语种识别系统的性能测试,实验表明本文的语种识别系统性能要优于传统的基于GMM的语种识别系统;(3)将得到的语言距离矩阵映射到二维平面,生成语言关系图。在OGI数据库和NIST LRE15两个数据库上进行实验,验证了本文所使用的语言距离研究方法在不同的数据库上的一致性。
[Abstract]:The main research content of this paper is to use speech data to study the distance relationship between languages.As to the definition of language distance relation, linguists study the distance relationship between languages by means of the homology of language and the correspondence of pronunciation, words and grammar rules between languages.Finally, a language tree is generated to reflect the subordination of language, which is a qualitative study; the distance between languages is defined by economists as the degree of difficulty for native speakers to learn other languages, which is a quantitative study.The study of language distance relation has certain application value both in culture and economy.In this paper, the distance relationship between languages is defined by the output-recognition rate of the language recognition system, and the most important one is the construction of the language recognition system, which is directly related to the reliability of the distance relationship between languages.Language recognition system consists of feature extraction and model training.In the part of feature extraction, we first extract 56 acoustic features of the input speech signal and their first-order and second-order differences, then use 39 statistical functions to describe these acoustic features, and finally generate 6552 dimensional feature vectors.In the part of model training, this paper adopts the discriminative modeling method-Gentle AdaBoost algorithm.Finally, the language distance matrix is mapped to the two-dimensional plane, and the language relation graph is generated, which directly reflects the distance relationship between languages.The main research results of this paper include: 1) this paper uses speech data to study the distance relationship between languages.The distance between languages is defined by the output-recognition rate of the language recognition system, and the language distance obtained in this paper is compared with the previous research results of linguists and economists.The experimental results show that the distance measurement method in this paper is consistent with previous research results. In the language recognition system, a new method is used to extract the features of the input speech signal. The biggest difference between this method and the previous methods is that,An input speech sample corresponds to a feature vector instead of a feature vector for each frame.Then the language model is trained by Gentle AdaBoost algorithm, and the performance of language recognition system is tested on OGI database and NIST LRE15 database.The experimental results show that the performance of the language recognition system in this paper is better than that of the traditional language recognition system based on GMM. The language distance matrix is mapped to the two-dimensional plane and the language relation graph is generated.Experiments on two databases, OGI database and NIST LRE15 database, have been carried out to verify the consistency of the language distance research methods used in this paper on different databases.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 清晨;计算机耳纹识别系统问世[J];知识就是力量;2004年05期
2 张颖,夏莉,王刚;计算机辅助印鉴识别系统的设计[J];郑州工业高等专科学校学报;2002年04期
3 ;“华夏天眼”面像识别系统技术演示会在京召开[J];中国防伪报道;2002年04期
4 惠智敏;;电信卡生产线的重要组成部分——卡号及密码扫描与识别系统[J];金卡工程;2002年10期
5 义轩;汉王证照识别系统助力电信业务管理[J];通信世界;2004年12期
6 刘启诚;;“证照识别系统”将助力手机实名制[J];通信世界;2006年20期
7 ;清华大学人脸综合识别系统全面进入应用推广阶段[J];清华大学学报(自然科学版);2006年04期
8 周襄楠;;清华大学人脸综合识别系统全面应用推广[J];中小企业科技;2006年04期
9 ;富士通推出新手掌静脉纹路识别系统[J];中国安防产品信息;2006年04期
10 赵斌;;文字板螺钉自动紧固机视像识别系统的改造[J];自动化博览;2006年04期
相关会议论文 前10条
1 何伟方;;音声识别系统[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
2 廖树宏;;建立朵丽新农村识别系统的新时代意义[A];第六届海峡两岸休闲农业发展学术研讨会论文集[C];2008年
3 马少平;姜哲;;大型古籍《四库全书》识别系统[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
4 李文宏;;海关卡口集装箱识别系统的应用[A];天津市电视技术研究会2013年年会论文集[C];2013年
5 赵杰煜;王小权;;复杂运动目标的学习与识别[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
6 王永恒;贾焰;杨树强;;面向汉语短文的话题识别系统研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 孙南;张庆;代锐;韦穗;;集成人脸检测和性别识别系统[A];第十五届全国图象图形学学术会议论文集[C];2010年
8 徐柽;周明安;李天鑫;薄鑫旭;李是良;;战争遗留爆炸物识别系统数据库设计[A];中国爆破新技术Ⅲ[C];2012年
9 王晶;姚鸿勋;姜峰;;中国手语徒手识别系统的设计与实现[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
10 苏光大;尚焱;严超;谢炳龙;张翠萍;杨淑兰;;计算机人像组合查询识别系统[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
相关重要报纸文章 前10条
1 江苏 耿达;一种新颖电子识别系统[N];电子报;2007年
2 记者 王嵘;山西推出二代证快捷识别系统[N];人民公安报;2010年
3 童杭丽;杭州要建立城市识别系统[N];科技日报;2007年
4 娜仁图雅;我区参与研制的少数民族文字识别系统通过鉴定[N];内蒙古日报(汉);2007年
5 实习记者 张晓东;第四届北京发明创新大赛颁奖“手掌识别系统”获特等奖[N];北京商报;2010年
6 钱丽花;统一平台的多民族文字文档识别系统研制成功[N];中国民族报;2007年
7 早报记者 韩晓蓉 实习生 徐文娟;“人脸”可成为万能“通行证”[N];东方早报;2012年
8 陈卓;打造自己的面容识别系统[N];中国电脑教育报;2005年
9 朱和平;空防空管一体化监视识别系统[N];解放军报;2005年
10 周襄楠 李江涛;清华大学人脸综合识别系统全面应用推广[N];大众科技报;2006年
相关博士学位论文 前2条
1 王春立;面向大词汇量的连续中国手语识别系统的研究与实现[D];大连理工大学;2003年
2 项冬冬;关于动态隐患识别系统的研究[D];华东师范大学;2013年
相关硕士学位论文 前10条
1 史宏博;嵌入式烟雾监控与识别系统[D];上海师范大学;2015年
2 陈银;基于扫描笔的发票识别系统设计[D];电子科技大学;2014年
3 刘陈馨;基于显著性检测的Logo识别系统[D];大连理工大学;2015年
4 屠舒妍;面向移动终端的病虫草害识别系统研究[D];中国科学院大学(工程管理与信息技术学院);2015年
5 石礼奇;基于EPON架构的高清抓拍识别系统的设计与实现[D];苏州大学;2015年
6 刘玉松;基于智能手机的自动车标识别系统[D];上海交通大学;2015年
7 吴杰;可修改与编辑的草图识别系统[D];上海交通大学;2015年
8 胡云;基于红外热成像技术的矿井火灾识别系统研究[D];安徽理工大学;2016年
9 张延涛;基于FPGA的盲道识别系统的设计与实现[D];东北大学;2014年
10 胡小芳;基于Hadoop的人体寄生虫虫卵识别系统的研究与实现[D];江苏大学;2016年
,本文编号:1739044
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1739044.html