方言单字记音自动校对研究
发布时间:2017-04-09 05:07
本文关键词:方言单字记音自动校对研究,由笔耕文化传播整理发布。
【摘要】:国家语委于2008年10月启动了“中国语言资源有声数据库建设”的项目,江苏省于2013年9月率先完成了江苏方言有声数据库的建设,其他省市数据库的建设也正陆续展开。为确保方言有声数据库的质量,需要对人工记音的内容进行校对,而人工校对耗时耗力。自动校对是自然语言处理的一个重要的研究领域,借助计算机对人工记音的内容进行自动校对可以减轻人工劳动的工作量,提高工作效率。本文以有声数据库中方言单字记音存在的漏记和错记现象为校对目标,运用语音端点检测技术发现漏记的读音,并运用语音的模式识别技术对漏记和错记的读音进行校对。运用门限过零率法对单字音端点进行检测时,对记音个数判断的准确率能达到99.85%,能够满足校对任务的需求。在对单字记音进行自动校对时,由于目前还不具备建立专门适用于识别所有方言的语音模型,并且各方言点的样本数据相对较少,因此,本文采用封闭测试的方法来进行校对。首先,为了验证封闭测试方法的可行性,我们以南京方言声调自动校对为例进行探究,在选用声调段的基频参数为特征项时,分别采用SGM和GMM进行识别,封闭测试的精确率分别为90.78%和93.61%,并且校正了记音问题,验证了封闭测试的方法是可行的。当换用MFCC和HMM对南京方言声调进行自动校对时,在音节层面进行校对的精确率达到了98.54%,并且对苏州和徐州两地方言的自动校对的平均精确率也分别能达到95.62%和98.86%。其次,当记音错误较多时,重复校对可以不断发现记音问题,并向错误总数收敛,南京方言声调伪错误召回实验验证了重复校对的方法的有效性,具有实际应用价值。再次,我们将声调自动校对的方法进行迁移,应用于声母和韵母的自动校对中,精确率总体上都比较高。以上的探究实验说明了选取的校对方法、声学参数和统计模型具有较好的普适性。因此,我们最终采用MFCC和HMM作为系统的声学参数和统计模型。最后,在探究实验的基础上,我们研制了一款方言单字记音自动校对系统,并且以江苏库其余67个方言点的语料对系统进行了实测,平均的精确率能够达到97.79%,并且在校对过程中校正了存在的记音问题,说明校对系统是具有实际应用价值的。
【关键词】:方言 单字 记音 自动校对
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H17
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-14
- 第一节 选题来源和意义7-8
- 第二节 相关研究8-12
- 一、语音的声学参数8-10
- 二、自动校对研究现状10-12
- 第三节 研究目标和研究内容12
- 第四节 实验语料及工具12-14
- 第二章 自动校对系统的原理14-24
- 第一节 数字信号处理14-19
- 一、端点检测模块14-16
- 二、基频提取模块16-18
- 三、MFCC提取模块18-19
- 第二节 统计模型19-21
- 一、高斯模型20-21
- 二、隐马尔可夫模型21
- 第三节 自动校对流程及系统评测21-24
- 第三章 方言单字调自动校对研究24-35
- 第一节 基于基频参数的南京方言声调自动校对24-28
- 一、特征项的选取24-25
- 二、特征项的正态性检验25-26
- 三、运用高斯模型自动校对结果26-27
- 四、小结27-28
- 第二节 基于MFCC特征的南京方言声调自动校对28-32
- 一、语音的自动标注28
- 二、校对结果28-29
- 三、伪错误召回实验29-31
- 四、小结31-32
- 第三节 苏州、徐州方言声调自动校对及评测32-35
- 一、苏州方言声调自动校对32-33
- 二、徐州方言声调自动校对33-34
- 三、小结34-35
- 第四章 方言声母、韵母自动校对校对研究35-47
- 第一节 辅音与元音的声学性质35-37
- 一、辅音的声学性质35-36
- 二、元音的声学性质36-37
- 第二节 声母自动校对研究37-43
- 一、南京方言声母自动校对探究37-39
- 二、苏州方言声母自动校对39-42
- 三、徐州方言声母自动校对42-43
- 四、小结43
- 第三节 韵母自动校对研究43-47
- 一、南京、苏州、徐州方言韵母概貌43-44
- 二、韵母自动校对实验44-46
- 三、小结46-47
- 第五章 方言单字记音自动校对系统47-60
- 第一节 文件结构及交互模块47-49
- 一、文件结构47-48
- 二、交互模块48-49
- 第二节 校对系统实测49-60
- 一、记音个数校对实测49-52
- 二、单字声调自动校对实测52-57
- 三、系统存在的局限57-60
- 第六章 结论60-62
- 第一节 结论及不足60-61
- 第二节 未来研究方向61-62
- 参考文献62-69
- 致谢69
本文关键词:方言单字记音自动校对研究,由笔耕文化传播整理发布。
,本文编号:294510
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/294510.html