分布式蒙古文搜索引擎系统的研究与实现
本文关键词:分布式蒙古文搜索引擎系统的研究与实现
更多相关文章: 蒙古文 搜索引擎 分布式 Nutch Lucene
【摘要】:作为蒙古族地区的官方文字之一,蒙古文在人们的生活中起着重要的作用。蒙古文国际标准编码发布之后,蒙古文信息化步伐加快、互联网技术不断发展,数据资源快速积累。如何能够从大量的蒙古文数据中获取有价值的信息,对蒙古族人民具有重要意义。作为信息检索的重要应用,搜索引擎技术可以满足蒙古族人民这一迫切需求。然而,目前对蒙古文搜索引擎技术的研究才刚刚起步,尚无分布式处理方面的相关研究。本文在目前较为成熟的Hadoop分布式平台下,首先根据蒙古文的构词特点和Lucene分析器的工作原理,开发蒙古文分析器,实现蒙古文的词干提取;其次,通过对Nutch增加蒙古文切词插件以及用户界面等相关模块的二次开发,实现Nutch对蒙古文的良好支持;最后,开发出运行于Hadoop分布式平台的蒙古文搜索引擎系统。本文主要关注蒙古文全文检索和搜索引擎技术的基本原理、蒙古文的构词特点和词干词缀提取、Lucene分析器的工作原理、Nutch的框架结构和插件机制,以及Hadoop集群搭建的相关过程。分布式蒙古文搜索引擎系统的实现,可以帮助人们在大量蒙古文文本资源(如网页等)中快速、准确的找到所需信息。这对提高蒙古文文献的利用率及蒙古文信息化建设具有重要意义。
【关键词】:蒙古文 搜索引擎 分布式 Nutch Lucene
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 绪论11-16
- 1.1 研究背景及意义11
- 1.2 国内外研究现状11-15
- 1.2.1 大数据及分布式处理技术12
- 1.2.2 搜索引擎发展及现状12-13
- 1.2.3 蒙古文搜索引擎发展及现状13-15
- 1.3 本文研究内容及组织结构15-16
- 1.3.1 本文研究内容15
- 1.3.2 组织结构15-16
- 第二章 相关理论介绍16-24
- 2.1 网络爬虫16-18
- 2.1.1 网络爬虫架构16-17
- 2.1.2 爬取策略17-18
- 2.2 倒排索引18
- 2.3 检索模型18-20
- 2.3.1 布尔模型19
- 2.3.2 向量空间模型19-20
- 2.4 链接分析20-22
- 2.4.1 PageRank算法21
- 2.4.2 HITS算法21-22
- 2.5 分布式技术22-23
- 2.6 本章小结23-24
- 第三章 Lucene蒙古文分析器24-36
- 3.1 蒙古文简介24-26
- 3.1.1 蒙古文字母表24-25
- 3.1.2 蒙古文构词25-26
- 3.2 Lucene及其分析器26-28
- 3.2.1 Lucene简介26-27
- 3.2.2 Lucene分析器27-28
- 3.3 蒙古文分析器设计28-32
- 3.3.1 蒙古文切词28-29
- 3.3.2 分析器设计原理29-32
- 3.4 蒙古文分析器实现32-34
- 3.4.1 代码编写32-34
- 3.4.2 对比测试34
- 3.4.3 代码打包34
- 3.5 本章小结34-36
- 第四章 Nutch蒙古文切词插件36-44
- 4.1 Nutch及其插件系统简介36-40
- 4.1.1 Nutch概述36-37
- 4.1.2 Nutch插件系统37-40
- 4.2 Nutch蒙古文切词插件设计40-41
- 4.3 Nutch蒙古文切词插件实现41-43
- 4.3.1 建立文件41
- 4.3.2 插件内容编写41-42
- 4.3.3 插件编译42-43
- 4.4 本章小结43-44
- 第五章 系统设计与部署44-55
- 5.1 系统环境简介44-45
- 5.1.1 软件环境44
- 5.1.2 硬件及网络环境44-45
- 5.2 系统功能描述45-46
- 5.3 系统结构设计46-47
- 5.3.1 集群部署架构设计46
- 5.3.2 系统模块结构设计46-47
- 5.4 系统集群部署47-53
- 5.5 系统性能评价53-54
- 5.5.1 P@1053
- 5.5.2 响应速度53-54
- 5.6 本章小结54-55
- 第六章 全文总结55-57
- 6.1 全文主要工作55-56
- 6.2 工作不足与展望56-57
- 参考文献57-60
- 攻读硕士学位期间取得成果60-61
- 致谢61
【相似文献】
中国期刊全文数据库 前10条
1 红梅,敖其尔,白云莉;托忒蒙古文读音输入法的设计与实现[J];内蒙古师范大学学报(自然科学汉文版);2004年02期
2 乌日娜;;清代蒙古文历史文献及其整理研究概况[J];兰台世界;2011年19期
3 嘎日迪,赵小兵,马红旭,赛音,白小玲;蒙古文自动处理系统研究[J];中文信息学报;1999年04期
4 菊花;金良;;使用程序自动分析蒙古文词的研究[J];内蒙古师范大学学报(自然科学汉文版);2014年02期
5 乌林西拉;内蒙古自治区图书馆学(蒙古文)的研究与发展[J];国家图书馆学刊;2000年01期
6 S·苏雅拉图;蒙古文整词计算机生成理论研究[J];中文信息学报;2001年04期
7 朝克图;关于蒙古文报刊史研究中的几个问题[J];蒙古学信息;2001年04期
8 红梅;基于Windows 2000/XP平台蒙古文输入法的设计技术[J];内蒙古师范大学学报(自然科学汉文版);2005年01期
9 巩政;郝莉;杨旭华;;非标准蒙古文字符编码转换为国际编码的一种方法[J];内蒙古大学学报(自然科学版);2008年02期
10 巩政;关高娃;;蒙古文停用词和英文停用词比较研究[J];中文信息学报;2011年04期
中国重要会议论文全文数据库 前10条
1 包艳花;图格木勒;;多字体印刷蒙古文识别后处理研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 吉仁尼格;;蒙古文同形词的统计法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 呼斯勒;六月;斯日古楞;;浅谈蒙古文通用编辑器几点基本规范[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 道布;;回鹘式蒙古文[A];中国民族古文字[C];1982年
5 道布;;回鹘式蒙古文研究概况[A];中国民族古文字研究[C];1980年
6 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 孟和吉雅;白音门德;敖其尔;田会利;;蒙古文语音合成技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 孟和吉雅;敖其尔;巩政;;蒙古文网页制作技术分析[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
9 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
10 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 吉儒木图;手机可以使用蒙古文了[N];内蒙古日报(汉);2007年
2 记者 解太荣;《蒙古秘史》回鹘体蒙古文复原项目完成[N];锡林郭勒日报;2009年
3 孟克;如何打破蒙古文图书产销两难的困境[N];中国民族报;2010年
4 记者 阿斯钢;蒙古国总统签命令推广回鹘式蒙古文[N];新华每日电讯;2010年
5 记者 苏布达;全盟首届蒙古文图书节落幕[N];锡林郭勒日报(汉);2012年
6 陈岗龙 (蒙古族);蒙古文文学翻译的两个问题[N];文艺报;2013年
7 金坛;蒙古文:描绘大自然的千姿百态[N];中国民族报;2014年
8 阿勒得尔图;沙日布却玛:用回鹘体蒙古文还原《蒙古秘史》[N];中国民族报;2006年
9 记者 张文强;蒙古文图书农牧民阅读大接力活动启动[N];内蒙古日报(汉);2008年
10 徐恒泰;要全力抓好蒙古文教学资源建设[N];鄂尔多斯日报;2008年
中国博士学位论文全文数据库 前8条
1 苏向东;基于深度学习和知识策略的蒙古文古籍识别研究[D];内蒙古大学;2016年
2 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
3 达古拉;《清内秘书院蒙古文档案汇编》语言研究[D];内蒙古大学;2012年
4 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年
5 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年
6 莎日娜;乌兰巴托版蒙古文译本《今古奇观》研究[D];中国社会科学院研究生院;2010年
7 王桂荣;蒙古文字结构研究[D];内蒙古大学;2011年
8 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年
中国硕士学位论文全文数据库 前10条
1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
2 常红梅;衮布扎布语言论著中的蒙古文阿里嘎礼研究[D];内蒙古大学;2013年
3 刘璐;面向蒙古文增量g┱沟男畔⒓焖骷际跹芯縖D];内蒙古大学;2015年
4 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年
5 王洪伟;基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D];内蒙古大学;2015年
6 张畔;蒙古文搜索引擎基本方法的实现[D];内蒙古大学;2015年
7 宋莉;蒙古文字造形元数据的分类编号探讨[D];内蒙古农业大学;2015年
8 青玉;指导小学生蒙古文正字法教学探析[D];内蒙古师范大学;2015年
9 达拉夫;文献学视角下的蒙古文古籍研究[D];内蒙古大学;2015年
10 王亚君;基于Linux IBUS的传统蒙古文输入法的研究与实现[D];内蒙古师范大学;2015年
,本文编号:570481
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/570481.html