当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Web的藏汉双语可比语料库构建技术研究

发布时间:2017-09-10 04:27

  本文关键词:基于Web的藏汉双语可比语料库构建技术研究


  更多相关文章: 可比语料库 关键词提取 命名实体 歧义消解 双语文档相似度计算


【摘要】:随着统计方法在自然语言处理中的广泛应用和快速发展,语料库作为基础资源,地位越来越重要。特别是双语语料库,在机器翻译、跨语言信息检索等领域起着重要作用。然而,平行语料库资源有限且不易获取,特别是在少数民族语言等弱势语言上这种情况更为严重,因此,可比语料库近些年逐渐引起研究人员的重视。可比语料库可以直接用于挖掘翻译等价对,如命名实体互译对、新词术语互译对等,也可以为构建平行语料库打下基础。早期可比语料挖掘主要基于文本内容特征,准确率和效率都不高,现在研究通常基于跨语言信息检索,也有学者利用维基百科资源进行可比语料挖掘。考虑到少数民族语言可使用资源有限,机器翻译系统不成熟等情况,本文借鉴了跨语言信息检索的思想,利用双语词典和互联网上开放的搜索引擎,构建藏汉双语可比语料库。本文首先从西藏新闻网等主要藏语新闻网站,采集藏语新闻语料作为源文档集,然后开展了以下几方面工作:一,关键词提取,在传统的TF-IDF算法基础上,融合了首现位置、词长、词性等特征信息,提高了关键词提取质量。二,关键词翻译及消歧。由藏语源文档关键词得到汉语文档关键词,还需经过藏汉双语词典翻译,由于藏汉词典中的一个藏语词,通常对应若干汉语义项,本文采用了基于全局共现的方法进行歧义消解,减少了查询词义项组合,提高了可比语料库构建效率。三,引入部分命名实体,和前面提取的关键词共同作为查询词。从文档的标题和首段中提取人名、地名、时间词、数量词等部分命名实体,这些命名实体通常含有新闻报道事件的时间、地点、人物等信息。命名实体的引入,提高了搜索返回结果中可比语料的比例。四,利用双语文档相似度计算方法对候选可比语料进行过滤。在得到汉语文档查询词后,通过网络搜索引擎进行搜索,将排位在前的部分搜索结果作为候选可比语料。选择dice系数作为判定系数,通过实验确定阈值大小。本文共收集藏语源语料1120余篇,获得汉语可比语料4576篇,78%的藏语源语料获得了对应的可比语料。实验表明,采用本文方法构建的可比语料库,领域全,时效性好,可扩展性强,适合构建大规模的可比语料库。本文方法还可应用到其它少数民族语言的民汉双语可比语料库构建中。
【关键词】:可比语料库 关键词提取 命名实体 歧义消解 双语文档相似度计算
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要3-5
  • Abstract5-14
  • 第一章 绪论14-25
  • 1.1 可比语料库研究的缘起14-17
  • 1.1.1 语料库14-15
  • 1.1.2 语语料库15-17
  • 1.2 可比语料库的应用范畴17-19
  • 1.2.1 翻译等价对挖掘18
  • 1.2.2 平行语料挖掘18-19
  • 1.2.3 其他跨语言信息处理19
  • 1.3 可比语料库的相关研究现状19-22
  • 1.3.1 基于内容特征的构建方法20
  • 1.3.2 基于跨语言信息检索的构建方法20-21
  • 1.3.3 基于特定网页资源的构建方法21-22
  • 1.4 研究内容22-24
  • 1.5 论文基本结构24-25
  • 第二章 可比语料库构建相关预处理工作25-29
  • 2.1 Web挖掘与网页正文抽取25-27
  • 2.2 藏文分词27-28
  • 2.3 本章小结28-29
  • 第三章 候选可比语料的获取29-45
  • 3.1 关键词提取29-36
  • 3.1.1 相关研究方法30
  • 3.1.2 TF-IDF算法提取关键词30-32
  • 3.1.3 引入多特征信息32-34
  • 3.1.4 实验步骤与结果分析34-36
  • 3.2 关键词翻译及歧义消解36-39
  • 3.2.1 歧义消解常用方法36-37
  • 3.2.2 共现消歧37-39
  • 3.2.3 实验结果与分析39
  • 3.3 未登录词处理39-43
  • 3.3.1 未登录词40
  • 3.3.2 命名实体引入40-41
  • 3.3.3 命名实体翻译41-42
  • 3.3.4 引入命名实体效果对比42-43
  • 3.4 本章小结43-45
  • 第四章 候选可比语料的过滤45-51
  • 4.1 语文档相似度计算45-48
  • 4.1.1 相关研究45-46
  • 4.1.2 互译词对46-47
  • 4.1.3 相似系数47-48
  • 4.2 实验结果与分析48-50
  • 4.2.1 评价标准48
  • 4.2.2 实验步骤48-49
  • 4.2.3 实验结果49-50
  • 4.3 本章小结50-51
  • 第五章 总结51-53
  • 参考文献53-57
  • 致谢57-58
  • 攻读学位期间发表的学术论文目录58

【共引文献】

中国期刊全文数据库 前10条

1 李奇;邓扬;;课程辅助教学系统设计[J];计算机光盘软件与应用;2014年01期

2 石翠;;基于条件随机场的动词细分类研究[J];智能计算机与应用;2014年01期

3 于斯音·于苏普;艾斯卡尔·艾木都拉;;基于情感词典的维吾尔语文本句子情感分类[J];电脑知识与技术;2014年10期

4 段良涛;郭曙超;;中文文本校对技术研究[J];电脑知识与技术;2014年19期

5 拉毛措;安见才让;;基于ASP.NET的藏文分词系统设计与实现[J];计算机光盘软件与应用;2014年23期

6 马晓军;;全媒体交互中心及其大数据分析的研究[J];电信科学;2014年S2期

7 孙波;陈玖冰;刘永娜;;大数据背景下的学生情感词典构建方法[J];北京师范大学学报(自然科学版);2015年04期

8 尹德春;刘建勇;;全启发式语言分析模型[J];燕山大学学报;2015年04期

9 加羊吉;李亚超;宗成庆;于洪志;;最大熵和条件随机场模型相融合的藏文人名识别[J];中文信息学报;2014年01期

10 高定国;扎西加;赵栋材;;计算机识别藏语虚词的方法研究[J];中文信息学报;2014年01期

中国博士学位论文全文数据库 前9条

1 萧筝;客户需求信息处理理论和方法研究[D];武汉理工大学;2013年

2 贡正仙;文档级统计机器翻译的研究[D];苏州大学;2014年

3 马力;基于聚类分析的网络用户兴趣挖掘方法研究[D];西安电子科技大学;2012年

4 华却才让;基于树到串藏语机器翻译若干关键技术研究[D];陕西师范大学;2014年

5 鹿文鹏;基于依存和领域知识的词义消歧方法研究[D];北京理工大学;2014年

6 王骏;基于文本挖掘的国际关系网络研究[D];北京邮电大学;2013年

7 孙月萍;基于全信息的社区问答系统研究[D];北京邮电大学;2014年

8 游彪;极化SAR目标散射特性分析与应用[D];清华大学;2014年

9 乌日力嘎;西里尔蒙古文—汉文机器翻译系统的实现[D];内蒙古大学;2015年

中国硕士学位论文全文数据库 前10条

1 洪宗祥;基于自然语言的知识查询算法研究[D];湖北大学;2013年

2 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大学;2013年

3 李佳媛;汉语句子相似度计算技术及其应用[D];北京信息科技大学;2013年

4 刘洋;基于字边界特征的中文抽词模型研究[D];湖南大学;2013年

5 王慧;微博话题追踪方法研究与设计[D];北京交通大学;2014年

6 茹旷;日汉双语命名实体对获取方法及其应用研究[D];北京交通大学;2014年

7 彭新茗;基于多层学习的病历实体识别算法设计与实现[D];东北大学;2013年

8 李战磊;面向博客的检索排序算法研究[D];东北大学;2011年

9 宋文瑞;古代汉语史书语料库建设的初步研究[D];东北大学;2011年

10 时英晋;面向网页内容的K-means聚类算法的研究[D];东北大学;2011年



本文编号:824729

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/824729.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99bd4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com