当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式蒙古文搜索引擎系统的研究与实现

发布时间:2017-07-20 23:18

  本文关键词:分布式蒙古文搜索引擎系统的研究与实现


  更多相关文章: 蒙古文 搜索引擎 分布式 Nutch Lucene


【摘要】:作为蒙古族地区的官方文字之一,蒙古文在人们的生活中起着重要的作用。蒙古文国际标准编码发布之后,蒙古文信息化步伐加快、互联网技术不断发展,数据资源快速积累。如何能够从大量的蒙古文数据中获取有价值的信息,对蒙古族人民具有重要意义。作为信息检索的重要应用,搜索引擎技术可以满足蒙古族人民这一迫切需求。然而,目前对蒙古文搜索引擎技术的研究才刚刚起步,尚无分布式处理方面的相关研究。本文在目前较为成熟的Hadoop分布式平台下,首先根据蒙古文的构词特点和Lucene分析器的工作原理,开发蒙古文分析器,实现蒙古文的词干提取;其次,通过对Nutch增加蒙古文切词插件以及用户界面等相关模块的二次开发,实现Nutch对蒙古文的良好支持;最后,开发出运行于Hadoop分布式平台的蒙古文搜索引擎系统。本文主要关注蒙古文全文检索和搜索引擎技术的基本原理、蒙古文的构词特点和词干词缀提取、Lucene分析器的工作原理、Nutch的框架结构和插件机制,以及Hadoop集群搭建的相关过程。分布式蒙古文搜索引擎系统的实现,可以帮助人们在大量蒙古文文本资源(如网页等)中快速、准确的找到所需信息。这对提高蒙古文文献的利用率及蒙古文信息化建设具有重要意义。
【关键词】:蒙古文 搜索引擎 分布式 Nutch Lucene
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 绪论11-16
  • 1.1 研究背景及意义11
  • 1.2 国内外研究现状11-15
  • 1.2.1 大数据及分布式处理技术12
  • 1.2.2 搜索引擎发展及现状12-13
  • 1.2.3 蒙古文搜索引擎发展及现状13-15
  • 1.3 本文研究内容及组织结构15-16
  • 1.3.1 本文研究内容15
  • 1.3.2 组织结构15-16
  • 第二章 相关理论介绍16-24
  • 2.1 网络爬虫16-18
  • 2.1.1 网络爬虫架构16-17
  • 2.1.2 爬取策略17-18
  • 2.2 倒排索引18
  • 2.3 检索模型18-20
  • 2.3.1 布尔模型19
  • 2.3.2 向量空间模型19-20
  • 2.4 链接分析20-22
  • 2.4.1 PageRank算法21
  • 2.4.2 HITS算法21-22
  • 2.5 分布式技术22-23
  • 2.6 本章小结23-24
  • 第三章 Lucene蒙古文分析器24-36
  • 3.1 蒙古文简介24-26
  • 3.1.1 蒙古文字母表24-25
  • 3.1.2 蒙古文构词25-26
  • 3.2 Lucene及其分析器26-28
  • 3.2.1 Lucene简介26-27
  • 3.2.2 Lucene分析器27-28
  • 3.3 蒙古文分析器设计28-32
  • 3.3.1 蒙古文切词28-29
  • 3.3.2 分析器设计原理29-32
  • 3.4 蒙古文分析器实现32-34
  • 3.4.1 代码编写32-34
  • 3.4.2 对比测试34
  • 3.4.3 代码打包34
  • 3.5 本章小结34-36
  • 第四章 Nutch蒙古文切词插件36-44
  • 4.1 Nutch及其插件系统简介36-40
  • 4.1.1 Nutch概述36-37
  • 4.1.2 Nutch插件系统37-40
  • 4.2 Nutch蒙古文切词插件设计40-41
  • 4.3 Nutch蒙古文切词插件实现41-43
  • 4.3.1 建立文件41
  • 4.3.2 插件内容编写41-42
  • 4.3.3 插件编译42-43
  • 4.4 本章小结43-44
  • 第五章 系统设计与部署44-55
  • 5.1 系统环境简介44-45
  • 5.1.1 软件环境44
  • 5.1.2 硬件及网络环境44-45
  • 5.2 系统功能描述45-46
  • 5.3 系统结构设计46-47
  • 5.3.1 集群部署架构设计46
  • 5.3.2 系统模块结构设计46-47
  • 5.4 系统集群部署47-53
  • 5.5 系统性能评价53-54
  • 5.5.1 P@1053
  • 5.5.2 响应速度53-54
  • 5.6 本章小结54-55
  • 第六章 全文总结55-57
  • 6.1 全文主要工作55-56
  • 6.2 工作不足与展望56-57
  • 参考文献57-60
  • 攻读硕士学位期间取得成果60-61
  • 致谢61

【相似文献】

中国期刊全文数据库 前10条

1 红梅,敖其尔,白云莉;托忒蒙古文读音输入法的设计与实现[J];内蒙古师范大学学报(自然科学汉文版);2004年02期

2 乌日娜;;清代蒙古文历史文献及其整理研究概况[J];兰台世界;2011年19期

3 嘎日迪,赵小兵,马红旭,赛音,白小玲;蒙古文自动处理系统研究[J];中文信息学报;1999年04期

4 菊花;金良;;使用程序自动分析蒙古文词的研究[J];内蒙古师范大学学报(自然科学汉文版);2014年02期

5 乌林西拉;内蒙古自治区图书馆学(蒙古文)的研究与发展[J];国家图书馆学刊;2000年01期

6 S·苏雅拉图;蒙古文整词计算机生成理论研究[J];中文信息学报;2001年04期

7 朝克图;关于蒙古文报刊史研究中的几个问题[J];蒙古学信息;2001年04期

8 红梅;基于Windows 2000/XP平台蒙古文输入法的设计技术[J];内蒙古师范大学学报(自然科学汉文版);2005年01期

9 巩政;郝莉;杨旭华;;非标准蒙古文字符编码转换为国际编码的一种方法[J];内蒙古大学学报(自然科学版);2008年02期

10 巩政;关高娃;;蒙古文停用词和英文停用词比较研究[J];中文信息学报;2011年04期

中国重要会议论文全文数据库 前10条

1 包艳花;图格木勒;;多字体印刷蒙古文识别后处理研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

2 吉仁尼格;;蒙古文同形词的统计法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

3 呼斯勒;六月;斯日古楞;;浅谈蒙古文通用编辑器几点基本规范[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 道布;;回鹘式蒙古文[A];中国民族古文字[C];1982年

5 道布;;回鹘式蒙古文研究概况[A];中国民族古文字研究[C];1980年

6 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 孟和吉雅;白音门德;敖其尔;田会利;;蒙古文语音合成技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

8 孟和吉雅;敖其尔;巩政;;蒙古文网页制作技术分析[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

9 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

10 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

中国重要报纸全文数据库 前10条

1 记者 吉儒木图;手机可以使用蒙古文了[N];内蒙古日报(汉);2007年

2 记者 解太荣;《蒙古秘史》回鹘体蒙古文复原项目完成[N];锡林郭勒日报;2009年

3 孟克;如何打破蒙古文图书产销两难的困境[N];中国民族报;2010年

4 记者 阿斯钢;蒙古国总统签命令推广回鹘式蒙古文[N];新华每日电讯;2010年

5 记者 苏布达;全盟首届蒙古文图书节落幕[N];锡林郭勒日报(汉);2012年

6 陈岗龙 (蒙古族);蒙古文文学翻译的两个问题[N];文艺报;2013年

7 金坛;蒙古文:描绘大自然的千姿百态[N];中国民族报;2014年

8 阿勒得尔图;沙日布却玛:用回鹘体蒙古文还原《蒙古秘史》[N];中国民族报;2006年

9 记者 张文强;蒙古文图书农牧民阅读大接力活动启动[N];内蒙古日报(汉);2008年

10 徐恒泰;要全力抓好蒙古文教学资源建设[N];鄂尔多斯日报;2008年

中国博士学位论文全文数据库 前8条

1 苏向东;基于深度学习和知识策略的蒙古文古籍识别研究[D];内蒙古大学;2016年

2 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年

3 达古拉;《清内秘书院蒙古文档案汇编》语言研究[D];内蒙古大学;2012年

4 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年

5 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年

6 莎日娜;乌兰巴托版蒙古文译本《今古奇观》研究[D];中国社会科学院研究生院;2010年

7 王桂荣;蒙古文字结构研究[D];内蒙古大学;2011年

8 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年

中国硕士学位论文全文数据库 前10条

1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年

2 常红梅;衮布扎布语言论著中的蒙古文阿里嘎礼研究[D];内蒙古大学;2013年

3 刘璐;面向蒙古文增量g┱沟男畔⒓焖骷际跹芯縖D];内蒙古大学;2015年

4 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年

5 王洪伟;基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D];内蒙古大学;2015年

6 张畔;蒙古文搜索引擎基本方法的实现[D];内蒙古大学;2015年

7 宋莉;蒙古文字造形元数据的分类编号探讨[D];内蒙古农业大学;2015年

8 青玉;指导小学生蒙古文正字法教学探析[D];内蒙古师范大学;2015年

9 达拉夫;文献学视角下的蒙古文古籍研究[D];内蒙古大学;2015年

10 王亚君;基于Linux IBUS的传统蒙古文输入法的研究与实现[D];内蒙古师范大学;2015年



本文编号:570481

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/570481.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e07bc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com