当前位置:主页 > 科技论文 > 软件论文 >

基于统计的汉语缩略语还原方法研究与实现

发布时间:2017-08-11 18:20

  本文关键词:基于统计的汉语缩略语还原方法研究与实现


  更多相关文章: 汉语缩略语还原 语言模型 机器翻译模型 语义相似度 词向量


【摘要】:伴随着生活步伐的加快,出于简洁方便的经济原则,人们在表达时越来越多地使用缩略语。然而,缩略语的使用在给人们带来便利的同时也给许多领域带来了不便。比如在进行信息抽取时,缩略语作为噪声会降低抽取结果;在进行机器翻译时,缩略语的存在会对翻译结果的准确性造成不良的影响,等等。因此,如何准确地还原汉语缩略语已成为自然语言处理相关研究面临的重要挑战。本文在以新闻语料为基础深入分析汉语缩略语特点基础上,分别采用N元语法模型、统计机器翻译模型和语义相似度方法探索汉语缩略语的还原问题。具体地,本文从以下两个方面展开研究:(1)基于N-gram、基于机器翻译模型的汉语缩略语还原。基于N-gram的缩略语还原通过构建缩略语还原知识库构造缩略语还原候选集,在N元语法模型的框架下,对缩略语还原候选集进行语言解码,获得还原结果;基于机器翻译模型的汉语缩略语还原,通过构建基于词对齐、基于短语对齐的机器翻译模型,利用Moses获得含有缩略语完整形式的目标语言。实验结果表明,基于短语对齐的机器翻译模型具有更好的还原性能。(2)基于语义相似度的汉语缩略语还原:本文提出从语义角度出发,使用语义特征完成汉语缩略语的还原工作。首先,利用词嵌入模型从大量未标注的新闻文本中无监督地学习出词向量。然后,获取还原候选及其上下文的词向量。最后,通过计算语义相似度选取最佳还原候选,实现汉语缩略语的还原工作。同时,我们还利用语言模型和语义相似度结合的方法对缩略语进行还原。实验结果表明,基于N-gram结合词向量的语义相似度方法可以有效解决汉语缩略语还原问题。
【关键词】:汉语缩略语还原 语言模型 机器翻译模型 语义相似度 词向量
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 中文摘要4-5
  • Abstract5-10
  • 第1章 绪论10-20
  • 1.1 研究目的和意义10-11
  • 1.2 英文缩略语研究现状11-13
  • 1.3 汉语缩略语研究现状13-17
  • 1.3.1 汉语缩略语知识库构建研究现状13-14
  • 1.3.2 汉语缩略语识别研究现状14-15
  • 1.3.3 汉语缩略语还原研究现状15-17
  • 1.3.4 汉语缩略语还原研究存在的主要问题17
  • 1.4 本文主要研究内容17-18
  • 1.5 本文的组织安排18-20
  • 第2章 汉语缩略语语料库及知识库构建20-26
  • 2.1 引言20
  • 2.2 新闻媒体文本特点20-21
  • 2.3 汉语缩略语分类21-22
  • 2.4 缩略语扩展语料库22-24
  • 2.5 缩略语知识库构建24-25
  • 2.6 本章小结25-26
  • 第3章 基于N-gram和机器翻译的汉语缩略语还原26-42
  • 3.1 引言26
  • 3.2 基于N-gram的汉语缩略语还原26-36
  • 3.2.1 缩略语还原候选构造27-31
  • 3.2.2 缩略语还原语言解码31-36
  • 3.3 基于机器翻译的汉语缩略语还原36-38
  • 3.3.1 基于词的对齐语料构建37
  • 3.3.2 基于短语的对齐语料构建37-38
  • 3.4 实验结果与分析38-40
  • 3.4.1 实验数据和评价指标38
  • 3.4.2 模型训练工具38-39
  • 3.4.3 缩略语还原候选构造对还原性能的影响39-40
  • 3.4.4 汉语缩略语还原实验结果40
  • 3.5 本章小结40-42
  • 第4章 基于语义相似度的汉语缩略语还原42-56
  • 4.1 引言42-43
  • 4.2 基于语义相似度的汉语缩略语还原任务描述43-44
  • 4.3 还原候选的词向量模型44-45
  • 4.3.1 词向量模型44
  • 4.3.2 还原候选及缩略语上下文的词向量表示44-45
  • 4.4 缩略语还原语义相似度计算45-46
  • 4.5 语义相似度和N-gram相结合的汉语缩略语还原46-48
  • 4.5.1 基于N-gram结合语义相似度的汉语缩略语还原46-47
  • 4.5.2 基于语义相似度结合N-gram的汉语缩略语还原47-48
  • 4.6 实验结果与分析48-55
  • 4.6.1 实验设置48-49
  • 4.6.2 系统参数49
  • 4.6.3 基于语义相似度的实验结果与分析49-52
  • 4.6.4 N-gram结合语义相似度的实验结果与分析52-54
  • 4.6.5 语义相似度结合N-gram的汉语缩略语还原54-55
  • 4.6.6 基于N-gram和语义相似度的汉语缩略语还原性能对比55
  • 4.7 本章小结55-56
  • 结论56-58
  • 参考文献58-62
  • 致谢62-63
  • 攻读硕士学位期间发表的学术论文及参加的科研项目63

【相似文献】

中国期刊全文数据库 前10条

1 胡艳波;崔新春;路青;;2002~2011年国内语义相似度研究计量分析[J];情报科学;2013年07期

2 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期

3 刘俊;;基于语义相似度的关键词生成在企业搜索引擎营销中应用[J];电脑知识与技术;2008年14期

4 宗裕朋;吴刚;;一种基于上下文的语义相似度算法[J];微计算机信息;2008年30期

5 刘春辰;刘大有;王生生;赵静滨;王兆丹;;改进的语义相似度计算模型及应用[J];吉林大学学报(工学版);2009年01期

6 徐猛;刘宗田;周文;;一种基于知网语义相似度计算的应用研究[J];微计算机信息;2010年03期

7 孙海霞;钱庆;成颖;;基于本体的语义相似度计算方法研究综述[J];现代图书情报技术;2010年01期

8 魏椺;向阳;陈千;;计算术语间语义相似度的混合方法[J];计算机应用;2010年06期

9 马续补;郭菊娥;;基于《知网》语义相似度的企业事实主题诊断研究[J];情报杂志;2010年05期

10 魏凯斌;冉延平;余牛;;语义相似度的计算方法研究与分析[J];计算机技术与发展;2010年07期

中国重要会议论文全文数据库 前10条

1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

2 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

3 冯新元;魏建国;路文焕;党建武;;引入领域知识的基于《知网》词语语义相似度计算[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

4 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 石静;邱立坤;王菲;吴云芳;;相似词获取的集成方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 陈明;鹿e,

本文编号:657569


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/657569.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户14252***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com