基于Web的无指导译文消歧词模型与N-gram模型及对比研究
本文关键词: 计算语言学 无指导译文消歧 词模型 N-gram模型 Page Count 双语词汇Web相关度 搜索引擎 对比研究 模型方法 上下文 出处:《电子与信息学报》2009年12期 论文类型:期刊论文
【摘要】:该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。
[Abstract]:In this paper, a word model and N-gram model of undirected translation disambiguation based on Web are proposed. Under the same conditions as possible, the two methods use the search engine to calculate the Page Count of different search segments on Web as the main disambiguation information. The word model defines the double between Chinese and English words. Web relevance, The disambiguation N-gram model based on the correlation between the Chinese context vocabulary and the English translation assumes that the N-gram sequences of polysemous words have different behavior patterns under different semantics. The N-gram sequences of polysemous words in different semantic categories can be statistically analyzed and analyzed for disambiguation. The performance of the two models is better than the best undirected system which can be compared on the task#5 of international semantic evaluation SemEval2007. The performance of N-gram model is better than that of word model. It is also shown that the results of the combined two kinds of models have the potential to further improve the disambiguation performance.
【作者单位】: 北京大学计算语言学研究所;哈尔滨工业大学计算机科学与技术学院;
【基金】:国家重点基础研究发展计划(2004CB318102)资助课题
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 H.E.Bruderer ,徐志敏;机器和机器辅助翻译的目前情况[J];机器人;1980年03期
2 钱锋;计算语言学[J];自然杂志;1980年04期
3 姜一平;美国电脑翻译发展情况[J];机器人;1985年02期
4 ;简讯[J];中文信息学报;1987年03期
5 ;编者的话[J];中文信息学报;1988年03期
6 ;首届全国计算语言学学术会议在京召开[J];中文信息学报;1988年04期
7 汪劲;耿立大;;机器翻译及其基本概念和常用方法[J];情报科学;1988年02期
8 张效赤;;浅议“中图法”中语言学的列类[J];四川图书馆学报;1988年04期
9 吴平;;美国乔治城大学第39届语言学圆桌会议[J];当代语言学;1988年02期
10 ;1989年自然语言处理学术研讨会纪要[J];中文信息学报;1989年03期
相关会议论文 前10条
1 靳光瑾;;适用于对外汉语教学与计算机理解的存现句结构及语义特征分析[A];第六届国际汉语教学讨论会论文选[C];1999年
2 龚彦如;李竹;冯志伟;;英——汉计算语言学术语数据库[A];语言文字应用研究论文集(Ⅰ)[C];1995年
3 ;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 亢世勇;刘海润;;基于数据库的现代汉语词类优势语法功能统计研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 易绵竹;薛恩奎;李绍哲;南振兴;;一种与UNL接口的机器翻译系统ETAP-3概要[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 ;SWCL-2002组织机构[A];第一届学生计算语言学研讨会论文集[C];2002年
9 刘群;;编辑说明[A];第一届学生计算语言学研讨会论文集[C];2002年
10 赵岩;王晓龙;关毅;;计算语言学领域程序编制的工程问题探讨[A];第一届学生计算语言学研讨会论文集[C];2002年
相关重要报纸文章 前10条
1 本报记者 宋乃裕;英语专家的数学情结[N];广东科技报;2002年
2 新文;语句级手机汉字输入法问世[N];中国计算机报;2004年
3 刘培香 好诚;新一代手机汉字输入法问世[N];科学时报;2004年
4 全国政协委员 石锐;建立健全国家民族语言数据库[N];人民政协报;2006年
5 俞士汶;语言信息处理的基石[N];计算机世界;2007年
6 谭啸;机器翻译应用平民化[N];计算机世界;2007年
7 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
8 宗河;培养具有创新意识的语言学人才[N];中国教育报;2007年
9 执笔 江荻;人文社会科学前沿扫描[N];中国社会科学院院报;2008年
10 王德春;世界上最大的一套语言学百科全书中国落地[N];文汇报;2008年
相关博士学位论文 前5条
1 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
2 刘根辉;计算语用学基础理论及其应用研究[D];华中科技大学;2005年
3 贺俊杰;基于组合模式的语法检查[D];广东外语外贸大学;2006年
4 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
5 赵春利;形名组合的静态与动态研究[D];暨南大学;2006年
相关硕士学位论文 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 田阡子;现代汉语被字句的词汇语法理论研究[D];黑龙江大学;2001年
3 杨泉;现代汉语“把字句”“把”前成分的词汇语法理论分析[D];黑龙江大学;2002年
4 马晓梅;经济实力与外语教学市场的语种竞争[D];西北工业大学;2001年
5 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
6 吴光远;依存语言模型在信息检索中的应用研究[D];天津大学;2004年
7 林鹏;汉语疑问句理解系统研究与实现——虚拟信息顾问系统之问题理解子系统[D];重庆大学;2004年
8 杜世平;隐马尔可夫模型的原理及其应用[D];四川大学;2004年
9 沈小波;西方翻译家和中国翻译家之比拼:用计算语言学的方法比较《红楼梦》的两个译本[D];上海外国语大学;2004年
10 方鸷飞;中文文本体裁的自动分类机制[D];大连理工大学;2005年
,本文编号:1542119
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1542119.html