一种多语言、多编码的识别方法
本文关键词:一种多语言、多编码的识别方法,,由笔耕文化传播整理发布。
《南京大学》 2012年
一种多语言、多编码的识别方法
李思舒
【摘要】:全球化的背景下,教育、经济、文化等活动的开展跨越了国界。一方面,互联网的蓬勃发展推动着全球化的进程,另一方面,语言或许正在成为全球化最后的障碍。自动化语言识别技术就在这种背景下不温不火地向前发展。 笔者对国内外文本自动分类、机器翻译、多语言信息检索等相关领域的研究进行了详细的调查研究。业界普遍赞同将语言识别问题看作是“基于某些特征进行文本分类”这一问题的一个特例。文本分类相关研究自上世纪60年代贝叶斯概率分类器问世起至今,大致经历了文本自动分类、人工辅助分类和机器学习三个阶段。一些统计分类算法,诸如KNN算法、决策树、Rocchio算法、朴素贝叶斯算法、支持向量机、最大熵模型、遗传算法、神经网络等等,均在目前文本自动分类的研究中表现出色。而作为机器学习重点研究领域之一的机器翻译挑起了目前绝大多数多语言信息检索系统核心模块的重担。机器翻译借助辞典、语料库、本体以及在此基础之上构建的谷歌在线翻译、互联网通行机器翻译系统(Internet Passport MT System)和在线世界语机器翻译系统(Online WorldLingo MT System)等免费可得的工具,来实现查询词和多种语言形式的待检文档之间的沟通。多语言自动识别作为机器翻译的前导,是目前被普遍忽略却又对多语言信息检索结果有重要影响的研究领域。 对于语言自动识别这一领域,其面临的问题与其说属于文本分类研究领域,不如说属于自然语言处理的研究范畴。本文实现的多语言自动识别程序,便是基于自然语言处理中著名的N-Gram理论之上。N-Gram是一种概率统计语言模型,又被称为一阶马尔可夫链。这一理论主要应用于词性标注、音字转换以及语音语言识别。尤其在语音识别领域,它被认为是目前实现快速精确语音识别系统最成功的方法。本文使用它进行以文本形式存在的语言自动识别研究。研究对象为汉语、英语、法语、德语、俄语和日语韩语等互联网使用最广泛的七种语言。多语言识别实验分为训练多语种语料库和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(Open Directory Project)。识别实验结果证明,该程序对英语和德语长短文本的平均识别正确率最高,均为100%,俄语其次,为94.44%,接下来依次是中文简体94.44%,中文繁体83.33%,法语83.33%,韩语16.67%,若排除汉语语词特征影响,韩语可被准确识别。 实验进一步选取日文中常见的两种编码EUC-JP和SHIFT-JIS,依照上述训练和识别两个步骤,对N-Gram理论应用于编码识别时的有效性进行了探索性的验证,并取得了令人惊喜的结果。对EUC-JP和SHIFT-JIS编码的正确识别比例分别为85%和95%,识别误差率均低于0.0020。使用N-Gram理论进行编码识别是本文的一个亮点。 随后,笔者引入全文检索框架Lucene3.5,结合其核心代码,介绍了多语言识别相关的索引模块和搜索模块的工作原理,分析Analyzer内建类。并依据索引、搜索模块的相关接口对上述语言识别程序进行了细节处理,将中文简体和中文繁体的识别结果统一返回为"Chinese"类型,日语、韩语识别结果统一返回为“CJK”类型。由此将多语言自动识别程序扩展为Lucene3.5的多语言自动识别模块,分别在建立索引和用户检索两个阶段穿插多语言识别功能,以期协助Lucene实现跨语言检索系统的开发,以及平滑用户的跨语言检索体验。这项工作目前尚未发现有研究者涉足。由于篇幅和时间的限制,仅在文中给出模块及其接口设计,实现基于Lucene的多语言检索系统将是下一阶段的研究任务。
【关键词】:
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H08
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库 前1条
1 魏晓萍;肝炎病毒蛋白领域本体的构建及应用研究[D];上海交通大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
2 杨辉;张玥杰;张涛;;基于词典的英汉双向跨语言信息检索方法[J];计算机工程;2009年16期
3 胡争光;池天河;毕建涛;;基于Lucene和GML/SVG的地图搜索引擎模型研究与实现[J];计算机应用研究;2008年04期
4 郑敏;跨语言信息检索的理论与实践[J];情报理论与实践;2003年03期
5 石洪波,王志海,黄厚宽;贝叶斯文本分类方法研究[J];山西财经大学学报(高等教育版);2002年S1期
6 马凤娟;吴鹏飞;;基于Lucene的中英文语言分析器的设计与实现[J];图书情报工作;2009年15期
7 冯志伟;;关于信息时代的多语言问题的一些思考[J];现代语文;2006年07期
中国博士学位论文全文数据库 前2条
1 李培峰;基于语义的多文种信息处理平台SMIPP的研究[D];苏州大学;2006年
2 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前4条
1 张东伟;中英文跨语言信息检索模型研究[D];黑龙江大学;2006年
2 张瑞;基于Lucene的中英文文档全文搜索引擎[D];电子科技大学;2008年
3 李帅;全文检索在“2008奥运多语言系统”中的应用研究与实现[D];北京工业大学;2009年
4 苏绥绥;基于统计语言模型的跨语言信息检索[D];大连理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 郭宇锋;黄敏;;跨语言信息检索理论与应用研究[J];图书与情报;2006年02期
2 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
3 王群,敬卿;论自然语言的优势与人工语言的消亡[J];大学图书馆学报;2004年02期
4 凌颖;;跨语言跨专业网络寻求解决方案[J];电子世界;2011年14期
5 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
6 张宇光;网络检索技术[J];佳木斯大学学报(自然科学版);2004年02期
7 裴艳霞;刘椿年;;面向手机3D动画自动生成的中文命名实体识别[J];计算机工程与应用;2012年13期
8 赵欣;邓明星;;基于Web的跨语言信息检索研究综述[J];计算机与现代化;2009年02期
9 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
10 葛彦强;汪向征;栗青生;宋世桢;;基于Lucene的甲骨文全文检索系统构建[J];科技通报;2012年04期
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
3 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
4 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
5 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
6 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 周惠巍;模糊限制信息检测中融合方法的研究[D];大连理工大学;2012年
9 赵生辉;中国少数民族语言电子文件集成管理的体系架构研究[D];武汉大学;2012年
10 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
中国硕士学位论文全文数据库 前10条
1 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
2 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
3 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
6 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
7 白瑾;基于群体特性的搜索方法研究[D];武汉理工大学;2011年
8 许婷;面向中文信息处理的复句特征分析器的研究与实现[D];华中师范大学;2011年
9 塔娜;面向跨语言信息检索的蒙汉语义词典构建[D];内蒙古师范大学;2011年
10 李胜蓝;基于ANFIS的心律失常辅助诊断模型研究[D];复旦大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 房巍;李万龙;;基于本体的图书智能检索系统的建模与应用研究[J];长春理工大学学报;2006年02期
2 孟凡荣;田恬;张磊;;一种改进了的查询扩展算法[J];电脑知识与技术;2009年12期
3 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
4 尹焕亮;孙四明;张峰;;基于本体的Web智能检索研究[J];计算机工程;2009年23期
5 贾雪峰;王建新;齐建东;朱礼军;;基于领域本体的智能检索模型[J];计算机工程;2010年23期
6 王旭阳;萧波;;基于本体和局部上下文分析的查询扩展方法[J];计算机工程;2012年07期
7 李丽亚;宋扬;薛中玉;李春梅;;基于Ontology的科学数据共享检索体系解析[J];情报理论与实践;2009年05期
8 许盛中;蔡乐才;;基于本体的图书智能检索系统的模型研究[J];四川理工学院学报(自然科学版);2009年05期
9 徐静;孙坦;黄飞燕;;近两年国外本体应用研究进展[J];图书馆建设;2008年08期
10 徐国虎;许芳;;本体构建工具的分析与比较[J];图书情报工作;2006年01期
中国博士学位论文全文数据库 前1条
1 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
中国硕士学位论文全文数据库 前10条
1 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
2 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
3 吕爽;基于叙词表的医学领域本体的构建研究[D];吉林大学;2011年
4 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
5 李梦莎;基于叙词表的领域本体构建方法研究[D];北京工商大学;2010年
6 胡川洌;基于本体的教学资源语义检索研究[D];重庆大学;2011年
7 薛荟;林业应用系统本体知识模型的构建和应用[D];中南林业科技大学;2011年
8 李兆龙;基于领域本体的旅游信息检索系统研究与实现[D];北京邮电大学;2012年
9 黄伟;本体构建与语义集成研究[D];东南大学;2005年
10 廖军;基于领域本体的信息检索研究[D];中南大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
2 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
3 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
4 余旭;邓跃进;胡圣武;张琦;;基于GML3.1的空间数据共享研究[J];地球信息科学;2006年03期
5 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
6 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
7 刘援朝;电脑的多文种支持技术与我国少数民族传统文字问题[J];贵州民族研究;2002年04期
8 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
9 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
10 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
中国博士学位论文全文数据库 前4条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 周英华;位置相关Web搜索的检索技术研究[D];中国科学技术大学;2006年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
【相似文献】
中国重要会议论文全文数据库 前1条
1 孙晓玲;林鸿飞;;统一语义视图下的垂直领域跨语言检索模型[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国硕士学位论文全文数据库 前3条
1 焦世斗;大规模网页中双语命名实体挖掘的研究与实现[D];大连理工大学;2009年
2 牛亚萌;跨语言信息检索技术的研究与实现[D];西安电子科技大学;2011年
3 艾厚军;双语语料获取系统关键技术的研究与实现[D];电子科技大学;2012年
相关机构
>电子科技大学
>西安电子科技大学
>大连理工大学
相关作者
>牛亚萌 >焦世斗
>艾厚军
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
京ICP证040441号
互联网出版许可证 新出网证(京)字008号
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-9993 010-62982499
服务热线:010-62985026 010-62791813
在线咨询:
传真:010-62780361
京公网安备11010802020475号
本文关键词:一种多语言、多编码的识别方法,由笔耕文化传播整理发布。
本文编号:107140
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/107140.html