当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于维基百科的未登录词译文挖掘

发布时间:2019-04-23 18:29
【摘要】:未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.
[Abstract]:......
【作者单位】: 苏州大学江苏省计算机信息处理重点实验室;
【基金】:国家自然科学基金项目(60970057,61003152)
【分类号】:TP391.1

【共引文献】

相关期刊论文 前1条

1 何晓聪;跨语言信息检索初探[J];情报科学;2005年02期

相关硕士学位论文 前2条

1 赵秀文;基于SSH和LDAP的网络安全文件系统的研究[D];清华大学;2005年

2 张东伟;中英文跨语言信息检索模型研究[D];黑龙江大学;2006年

【相似文献】

相关期刊论文 前10条

1 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期

2 寿思聪;姚从磊;李晓明;;发现维基百科文章相关图片[J];计算机科学与探索;2011年07期

3 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期

4 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期

5 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期

6 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期

7 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期

8 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前10条

1 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年

2 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

3 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

5 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

6 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年

8 赵伟;王美艳;刘闯;;基于古汉语语料数据库词的划分方法研究与探索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年

10 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

相关博士学位论文 前5条

1 李峗;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年

2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年

3 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年

4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年

5 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

相关硕士学位论文 前10条

1 国玮玮;基于网络资源的未登录词扩展研究[D];安徽大学;2012年

2 闻玉彪;一种基于组合模型的中文未登录词词性猜测方法[D];云南大学;2011年

3 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年

4 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年

5 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年

6 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年

7 王刚;自动抽取维基百科文本中的语义关系[D];上海交通大学;2008年

8 苏绥绥;基于统计语言模型的跨语言信息检索[D];大连理工大学;2009年

9 于海涛;可比较语料库的研究与构建[D];大连理工大学;2009年

10 王伟伟;维基出版模式研究[D];中国科学技术大学;2009年



本文编号:2463696

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2463696.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fc194***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com