当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的中文词表示学习技术研究

发布时间:2020-10-24 02:28
   随着中国国力的日益增强,中文信息处理(CLP,Chinese Language Processing)受到越来越多的重视。目前基于深度学习的自然语言处理的研究主要集中在字母语言(Alphabetic Language)领域,中文基于深度学习的自然语言处理方法大多借鉴自字母语言。无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,中文与英语等字母语言相比即有共性也存在差异。字符级(Character-level)信息处理方法能够有效解决未登录词(Out of Vocabulary)问题和低频词(Low frequency Words)问题,现阶段中文信息处理并没有将处理粒度拆分到足够细的程度,因此中文依然面临未登录词和低频词的困扰。由于汉字种类繁多,无法与其他字符进行统一处理。由于汉字编码的问题,数据处理开销较大。本文通过对中文词的构造特性以及汉字内部特征,构造了中文特有的基于笔画的中文词向量表示学习方法。在此基础上,结合中文语言各粒度和维度的层次特征,结合字、词、音、形等多种特征,构建全新的中文词表示,并运用到中文信息处理任务中。最后,针对数据训练过程中的数据预处理问题,结合分布式处理手段对模型训练进行加速。本文针对上述问题分别展开研究,所做的主要工作及创新点包括:1.本文提出了基于通用笔画的汉字编码方法,经过多次增补覆盖了 CJK统一汉字20902个汉字,为基于笔画的表示学习奠定了坚实的基础。并将汉字笔画编码引入手写汉字识别,为手写汉字识别提供了新的解决思路。2.本文提出了基于笔画的中文词向量表示学习方法,为中文自然语言处理提供了一种真正字符级(Character-level)的表示学习思路,有效解决了中文词表示学习的未登录词和低频词的问题。使用相似部件对笔画向量进行训练,能够更好地提取汉字之间的关联特征。3.通过对不同粒度特征的分析,本文提出了基于多维度特征的中文词表示学习算法。该方法结合中文词的音、形、字、词多个维度的特征,在保证细粒度特征在未登陆词和低频词上优势的前提下,更好地结合更多维度的特征。在一定程度上,解决了形近错别字、谐音同音错别字对文本理解带来的影响。4.针对模型预处理过程的效率问题,本文提出了基于内存的数据备份策略与数据迁移策略,以解决数据预处理的热点数据问题及热点数据汇聚问题。
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP391.1;TP181
【部分图文】:

柱状图,中文,英语,自然语言处理


翻译质量的数据为例,如表1.2所示。在该评分体系中,分数越高说明翻译的质??量越好,最高分设定为6分。我们将与中文相关的各翻译放置在一起,绘制成重??叠柱状图1.2,更清晰地比较中文与字母语言的差异性。如表1.2所示,涉及中文??的翻译质量明显低于其他语言间的翻译质量。由于中文的特殊性,在文本分类、??表1.2翻译质量平均评分??PBMT?GNMT?人类??英语->西班牙语?4.885?5.428?5.504??西班牙语->?英语?4.872?5.187?5.372??英语->?法语?4.932?5.295?5.496??法语->?英语?5.046?5.343?5.404??英语->?汉语?4.035?4.594?4.987??汉语->?英语?3.694?4.263?4.636??自动文本摘要等自然语言处理的基本任务中使用基于深度学习的方法也有类似??3??

柱状图,柱状图,中文,使用人


?伯语?牙语??■母语使用人数(1.000,000)??第二语言使用人数(1,000,000)??图1.1世界主要语种使用人数柱状图??目前基于深度学习的自然语言处理的研究主要集中在字母语言领域,中文??基于深度学习的自然语言处理方法大多借鉴自字母语言。由于结构语法上的差??异,中文与字母语言的语言单位有着各自的特点。例如,字母语言的词与词之间??有明显的界限,而中文的基本书写单位是汉字,词与词之间没有明确的界限。想??要使用中文词作为基本单位,必须首先要对文本进行分词。分词的准确度往往能??够直接影响上层应用的性能,给中文信息处理又增加一些难度。??我们取2016年谷歌公司在机器翻译领域一个突破性的模型GNMT[5I中对??翻译质量的数据为例,如表1.2所示。在该评分体系中,分数越高说明翻译的质??量越好,最高分设定为6分。我们将与中文相关的各翻译放置在一起,绘制成重??叠柱状图1.2

示意图,示意图,中文,汉字


图1.3本文各项工作间关系示意图??1.3论文的组织结构??本文着眼于基于深度学习的中文表示学习,通过理论分析和实验对比,探索??中文表示学习现有方法的优劣,并提出自己的中文表示学习方法。??本文一共分为七章,组织结构如下:??第一章首先介绍了中文信息处理的研究现状,分析了中文表示学习存在的??挑战性问题以及这些问题的研究意义,进而引出本文的研究内容并对研究方法??进行简要的说明。??第二章介绍了现有的词表示学习的方法,并简要分析了不同方法的优势和??劣势,作为本文模型设计的基础。??第三章提出了?C2S模型实现汉字向笔画序列的转换。并将该对应关系应用??到手写汉字势识别,在手写汉字识别中对该对应关系简化,并增加汉字结构部??。,,
【相似文献】

相关期刊论文 前10条

1 煜;;信息处理用中文词库系统等成果通过部级鉴定[J];科技信息;1987年10期

2 张敏;中文词认知研究综述[J];心理科学;1991年05期

3 刘超超;;大数据环境下中文词库动态更新系统模型研究[J];济宁学院学报;2017年05期

4 王永成,苏海菊,莫燕;中文词的自动办理[J];中文信息学报;1990年04期

5 刘瑜;;喜欢一个人,像昙花一现[J];时代青年(悦读);2015年07期

6 林亚平;异或哈希算法查找中文词组性能评价[J];中文信息学报;1995年01期

7 詹海生;王启户;;一种自适应字长的中文词库的构建方法[J];计算机研究与发展;2011年S1期

8 沈筱彦;陈俊亮;孟祥武;张玉洁;张磊;;可并行中文同主题词聚类新算法[J];北京邮电大学学报;2009年04期

9 林亚平;异或哈希算法查找中文词组性能评价[J];湖南大学学报(自然科学版);1994年05期

10 马松涛;高级中文词组生成系统GJCZ[J];微电子学与计算机;1986年05期


相关博士学位论文 前2条

1 庄航;基于深度学习的中文词表示学习技术研究[D];中国科学技术大学;2018年

2 龙腾;旋转方向无关的无约束手写中文词组识别[D];华南理工大学;2008年


相关硕士学位论文 前6条

1 刘世柯;基于神经网络的中文词表示方法研究[D];大连理工大学;2017年

2 关尔群;多媒体课件中不同色彩文字材料对阅读影响的眼动研究[D];辽宁师范大学;2003年

3 张若昕;汉英“借(borrow/lend)”的构式对比研究[D];吉林大学;2013年

4 何水霞;基于B-Tree索引和BerkeleyDB的中文词库的设计和实现[D];华中科技大学;2009年

5 于芳;中英双语跨语言词汇通达启动实验研究[D];河北大学;2009年

6 张永田;词激活力模型在中文词发现中的应用研究[D];北京邮电大学;2013年



本文编号:2853893

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2853893.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6eb7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com