一种有效的基于Web的双语翻译对获取方法
[Abstract]:The translation of nomenclature and new words has an important effect on the performance of machine translation, cross-language retrieval, automatic question and answer system, but these translations are difficult to obtain from the existing translation dictionaries. This paper presents a method for automatic acquisition of high quality bilingual translation pairs from Chinese web pages. This method utilizes the characteristics of bilingual translation pairs in web pages and uses statistical discriminant model to automatically mine the bilingual translation pairs that exist in web sites. The experimental results show that the correct rate of TOP1 is 82.1% and the accuracy rate of TOP3 is 94.5%. A method of using search engine to verify candidate translation is also proposed in this paper. The accuracy of TOP1 can be improved to 84.3%.
【作者单位】: 北京大学软件与微电子学院;中国科学院计算技术研究所智能信息处理重点实验室;
【基金】:国家自然科学基金资助项目(60603095)
【分类号】:TP391.2
【参考文献】
相关期刊论文 前1条
1 张永臣;孙乐;李飞;李文波;西野文人;于浩;方高林;;基于Web数据的特定领域双语词典抽取[J];中文信息学报;2006年02期
【共引文献】
相关期刊论文 前4条
1 周宥良;狄萍;贡正仙;周国栋;;插入语分类抽取研究方法探讨[J];计算机应用与软件;2011年04期
2 王东波;谢靖;;英汉对照语言对自动获取[J];图书情报工作;2010年17期
3 王东波;苏新宁;;英汉双语句子级平行语料库自动构建[J];现代图书情报技术;2009年12期
4 张宁;;自然语言处理中基于模板的汉语语句改写的方法[J];职业技术;2012年07期
相关会议论文 前2条
1 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关硕士学位论文 前9条
1 桑亚辉;基于模板方法的汉语语句自动改写研究[D];解放军信息工程大学;2008年
2 王超;大规模网络数据中的平行句对抽取[D];哈尔滨工业大学;2011年
3 丁康健;考试系统中智能化辅助阅卷技术研究[D];哈尔滨工程大学;2011年
4 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
5 南铉国;基于语句相似度计算的主观题自动评分技术研究[D];延边大学;2007年
6 廖晓玲;基于Web论文库的学术领域双语资源研究[D];天津大学;2008年
7 张瑞;英语在线考试及批阅系统的设计与实现[D];重庆大学;2009年
8 周宥良;基于WEB的双语翻译对抽取方法研究[D];苏州大学;2010年
9 徐华;基于可比较语料库的中英文词表构建研究[D];苏州大学;2012年
【二级参考文献】
相关期刊论文 前3条
1 孙乐,金友兵,杜林,孙玉芳;平行语料库中双语术语词典的自动抽取[J];中文信息学报;2000年06期
2 王斌;基于未对齐汉英双语库的翻译对抽取[J];中文信息学报;2000年06期
3 许勇,荀恩东,贾爱平,宋柔;基于互连网的术语定义获取系统[J];中文信息学报;2004年04期
【相似文献】
相关期刊论文 前10条
1 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
2 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
3 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
4 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
5 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
6 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
7 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
8 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
9 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
10 贾宁;张全;;基于句间关系的汉语语义块省略恢复[J];中文信息学报;2008年06期
相关会议论文 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
5 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
7 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
8 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
9 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
10 柏艳平;赵银燕;肖田元;;基于XML的键合图模型交换及重用[A];第十届中国科协年会论文集(一)[C];2008年
相关重要报纸文章 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 卜建设、卢山;市计算机应用学会成立[N];唐山劳动日报;2010年
3 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
4 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
5 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
6 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
7 记者 韩晓玲邋通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
8 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
9 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
10 袁钦玲;网吧专用计算机应用标准出台[N];中国计算机报;2006年
相关博士学位论文 前10条
1 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
2 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
3 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
4 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
5 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
6 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
7 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
8 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
9 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
10 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
相关硕士学位论文 前10条
1 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
2 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
5 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
6 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
7 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
8 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
9 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
10 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
,本文编号:2151848
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2151848.html