《大连理工大学》2010年硕士论文
本文关键词:企业信息检索中的对象检索方法研究,由笔耕文化传播整理发布。
《大连理工大学》 2010年
大规模中英可比较语料库构建
赵莲
【摘要】: 随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻译及辅助翻译等领域。 与平行语料库相比,可比较语料库具有易于获取、资源丰富、内容新颖等特点。目前,基于可比较语料库的研究越来越广泛。本文以“基于可比较语料库的命名实体互译对挖掘”为背景,构建大规模的中英可比较语料库。 通过分析现有可比较语料库构建方法中的不足,本文提出了基于跨语言信息检索与特征过滤相结合的方法,旨在获取大规模、高质量的中英可比较语料库。首先,抽取出源语言(中文)文档中的关键词,把关键词翻译成目标语言(英文)查询词,并根据一定的标准组合成查询语句;其次,利用信息检索系统检索与查询语句相关的目标语言文档,与源语言文档共同组成可比较文档对;最后,通过基于日期、相似度等特征的过滤方法对已生成的文档对进行过滤。本文的主要贡献包含以下三个方面: (1)在关键词抽取过程中,有效地结合了关键短语与关键单词。采用不同的方法构造候选短语及候选单词集合,并对其分别排序。同时,通过使用基于对称条件概率及局部最大值相结合的方法对分词结果进行修正,提高了关键词的抽取效果。 (2)基于不同的特征设计了两种过滤方法,对可比较文档对进行过滤。第一种方法基于文档的发布日期及检索系统返回的查询语句与目标语言文档间的相似度进行过滤。在此基础上,第二种过滤方法综合考虑了可比较文档对中互译关键词个数及权重,引入了新特征KSD。实验表明,基于日期、相似度及KSD的过滤方法比第一种方法更为有效,对齐质量较高的文档对在可比较语料库中所占比例提高了17.6%。 (3)基于五个相关性标准对可比较语料库的对齐质量进行了抽样分析。通过与其它可比较语料库构建方法对比,验证了本文中构建方法的有效性。
【关键词】:
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前6条
1 李康熙;杨勇;;平行语料库对齐技术的语言学思考[J];合肥工业大学学报(社会科学版);2009年03期
2 邢永康;马少平;;信息检索的概率模型[J];计算机科学;2003年08期
3 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
4 罗准辰;王挺;;基于分离模型的中文关键词提取算法研究[J];中文信息学报;2009年01期
5 罗彦彦;黄德根;;基于CRFs边缘概率的中文分词[J];中文信息学报;2009年05期
6 ;Keyword Extraction Based on tf/idf for Chinese News Document[J];Wuhan University Journal of Natural Sciences;2007年05期
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
2 魏彬;张军;项颖;;基于统计模型和小波变换的文本检索方法[J];电脑知识与技术;2009年07期
3 高燕;;关键词自动标引方法综述[J];电子世界;2012年06期
4 高学东;吴玲玉;;基于高维聚类技术的中文关键词提取算法[J];中国管理信息化;2011年09期
5 谢飞;吴信东;胡学钢;李星华;江兆中;;基于语义联系的新闻网页关键词抽取[J];广西师范大学学报(自然科学版);2009年01期
6 尹倩;胡学钢;谢飞;吴信东;;基于密度聚类模式的中文新闻网页关键词提取[J];广西师范大学学报(自然科学版);2009年01期
7 王成平;;信息处理用彝汉双语词汇对齐技术研究[J];计算机光盘软件与应用;2012年11期
8 周雪燕;韩建敏;;基于条件随机场汉语分词的语料规模量化研究[J];电脑与电信;2012年07期
9 李孝明,曹万华;舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J];舰船电子工程;2005年03期
10 管瑞霞;陆蓓;;TFLD:一种中文文本关键词自动提取方法[J];机电工程;2010年09期
中国重要会议论文全文数据库 前4条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 杨洁;季铎;蔡东风;代翠;;基于TextRank的多文档关键词抽取技术[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
3 王菁华;文本中知识的获取[D];北京邮电大学;2008年
4 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
5 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
6 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
9 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
10 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
5 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
6 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
7 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
8 陶启立;基于语义的科技文档信息资源检索系统的设计与实现[D];西北大学;2011年
9 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
10 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
2 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
5 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
6 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
7 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
8 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
9 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
10 张韧;;认知语法视野下的构式研究[J];外语研究;2007年03期
【相似文献】
中国期刊全文数据库 前10条
1 王爽;熊德兰;王晓霞;;基于实例的古文机器翻译设计与实现[J];许昌学院学报;2009年05期
2 曹英;徐卫;;基于网页的语料库自动生成[J];电脑知识与技术;2010年23期
3 吴迪;浅谈开发《CONULEXID英汉语言资料库》的意义[J];科技与出版;1998年04期
4 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
5 陆剑江;张霞;;基于Web语料库的知识发现设计与研究[J];计算机应用与软件;2006年07期
6 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
7 邱悦;;跨语言信息检索研究[J];图书情报工作;2006年10期
8 郝天侠;;跨语言信息检索技术与应用研究[J];情报杂志;2007年12期
9 王清;殷业;;基于Globish的旅游用英汉翻译系统的研究[J];企业科技与发展;2008年12期
10 高璐;;藏语天气预报语音合成系统的初步研究[J];电脑与电信;2009年01期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;[N];中国新闻出版报;2002年
2 本报记者 周建华;[N];中国图书商报;2001年
3 卢伟;[N];文艺报;2004年
4 记者 曹秀娟;[N];山西日报;2010年
5 顾曰国;[N];中国社会科学院院报;2003年
6 陈劲宏;[N];中国电脑教育报;2002年
7 李大庆;[N];科技日报;2002年
8 ;[N];光明日报;2001年
9 本报记者 陈友梅;[N];中国计算机报;2001年
10 闫宏志;[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
7 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
8 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
9 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
10 王丽;基于语料库的中国学习者英语口语中语用标记语研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
9 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
10 李艳梅;基于语料库的中国英语学习者与本族语者阐发性话语标记语的对比分析[D];沈阳师范大学;2011年
本文关键词:企业信息检索中的对象检索方法研究,,由笔耕文化传播整理发布。
本文编号:112257
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/112257.html