基于机器翻译的汉维文可比语料自动获取系统的构建与研究
本文关键词:基于机器翻译的汉维文可比语料自动获取系统的构建与研究
更多相关文章: 可比语料库 汉维文可比语料库构建 命名实体识别 文档相似度
【摘要】:可比语料库作为自然语言处理领域研究的热点一直被众多学者关注,其能为机器翻译,跨语言信息检索、搜索引擎等应用提供基础资源。随着互联网信息的井喷式发展,语料库的规模变得越来越大,而跨语言可比语料中包含的翻译等价对,专业术语互译对,新词互译对等内容也逐渐被研究员们重视起来。可比语料库具有资源规模大、时效性强、内容范围广等特点,作为基础资源库,在信息处理等方面都有大量的应用。因此,可比语料获取系统的构建研究十分重要。为了满足汉文-维吾尔文在可比语料库上的需求,在分析了现有研究工作基础上,本文提出构建汉维可比语料自动获取系统。本系统主要完成以下四个层次功能的设计与实现:第一,根据网页内容的多样性,本系统设计了针对新疆汉维文双语网站的网页内容获取方案并利用机器翻译系统对维吾尔语进行翻译。第二,对维吾尔译文与中文语料进行去停用词,分词等预处理,利用命名实体识别、词性分析对文本进行打分并剔除得分较低的文本。第三,利用神经网络模型对文本进行分类,分类的结果更有利于文本相似度的计算。第四,使用关键词抽取技术,潜语义分析算法对汉文-维吾尔文进行相似度计算并建立索引,达到获取汉维可比语料系统构建的目的。本系统可以在网络中获取较高质量的汉维文可比语料,相较于传统的基于主题提取计算文本相似度的方法,系统设计可比文档筛选方案,并使用关键词提取与潜语义分析相结合的方法提高了可比语料的获取质量。提出的采集方案具有时效性好,涉及领域广,质量较高等特点,适合构建跨语言可比语料获取系统。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前9条
1 庞伟;;双语语料库构建研究综述[J];信息技术与信息化;2015年03期
2 孙昌年;郑诚;夏青松;;基于LDA的中文文本相似度计算[J];计算机技术与发展;2013年01期
3 康小丽;章成志;;用于双语术语抽取的专业领域中英文可比语料库构建[J];现代图书情报技术;2012年02期
4 梁建飞;吐尔根·依布拉音;田生伟;赛依旦·阿不力米提;;汉维主题网页自动获取技术的研究[J];计算机应用与软件;2012年01期
5 王静;刘志镜;;基于概率模型的Web信息抽取[J];模式识别与人工智能;2010年06期
6 任高举;吐尔根·伊布拉音;艾山·吾买尔;;统计机器翻译中汉维短语对抽取的研究[J];新疆大学学报(自然科学版);2010年03期
7 热西旦·塔依;吐尔根·依布拉音;;汉文-维吾尔文双语语料库中段落对齐技术研究[J];新疆大学学报(自然科学版);2010年01期
8 陈怀兴;尹存燕;陈家骏;;一种命名实体翻译等价对的抽取方法[J];中文信息学报;2008年04期
9 孙广范;宋金平;袁琦;肖健;单玉秋;;中英可比语料库中翻译等价对抽取方法研究[J];计算机工程与应用;2007年32期
中国硕士学位论文全文数据库 前7条
1 庞伟;基于Web的藏汉双语可比语料库构建技术研究[D];中央民族大学;2015年
2 艾山·毛力尼亚孜;维汉双语平行语料库加工处理系统的设计与实现[D];新疆大学;2014年
3 彭哲;跨语言文本相关性检测技术研究[D];中南大学;2014年
4 徐会芳;可比语料中双语多词术语互译对抽取方法研究[D];大连理工大学;2013年
5 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
6 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
7 于海涛;可比较语料库的研究与构建[D];大连理工大学;2009年
,本文编号:1294400
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1294400.html