当前位置:主页 > 科技论文 > 软件论文 >

基于HDFS的非结构化数据检索技术的研究与应用

发布时间:2017-06-03 18:12

  本文关键词:基于HDFS的非结构化数据检索技术的研究与应用,由笔耕文化传播整理发布。


【摘要】:随着信息化程度的加深以及计算机技术在普通大众中的普及,人们每天创造的数据量是惊人的,而且这些大规模的数据形式各异。其中非结构化的数据占据大部分的比重,而人们日常工作中所需的信息大都包含在这些非结构化数据中。全文检索是处理非结构化数据的强有力的工具,为满足用户从数据资源中获取日常所需信息提供了便捷的方法。本文针对全文检索主要从索引构建及更新策略和检索结果的排序两个方面对非结构化数据的检索进行研究。倒排索引是一种高效构建非结构化数据索引的方法,同时也是全文检索的核心,而索引更新的速度影响检索的效率,在此基础上对检索结果的排序算法进行了研究,使最终返回的检索结果符合用户心理预期和满足用户需求。本文经过深入研究典型的索引合并更新策略和PageRank排序算法,分析了它们在应用中存在的不足,提出了基于DHT的合并更新策略和改进的PageRank排序算法。本文主要工作有以下几个方面:(1)针对非结构化数据的特点,本文对HDFS的数据读写机制进行了深入研究,理解MapReduce模型创建非结构化数据倒排索引的过程,分析MapReduce的任务调度和作业处理流程。(2)提出了基于DHT的倒排索引合并更新算法,在满足动态文档实时性的同时,这种算法采用多路归并的方式有效地降低了索引合并代价,利用参数控制动态地调节倒排索引更新效率和检索性能两者的平衡。通过在HDFS集群上搭建检索平台进行对比实验,验证了该算法具有一定的优越性。(3)提出改进的VSMT-PageRank排序算法,该算法在PageRank算法的基础上引入了时间因子和相似度计算,有效地解决了偏重旧页面和检索结果缺乏时效性的问题,并且可以克服传统排序算法中主题漂移的缺陷,从而提高了用户对结果的满意度和满足了用户的检索需求。通过在HDFS集群上搭建检索平台,从新浪抓取数据集进行对比实验,验证了该算法的有效性。
【关键词】:非结构化数据 HDFS系统 倒排索引更新 结果排序
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-15
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-11
  • 1.3 论文的主要工作11-13
  • 1.3.1 论文的写作思想11-12
  • 1.3.2 论文的主要工作12-13
  • 1.4 论文章节安排13-15
  • 第二章 相关技术研究15-30
  • 2.1 全文检索相关技术15-18
  • 2.1.1 全文检索15
  • 2.1.2 Lucene技术简介15-18
  • 2.2 中文分词算法18-23
  • 2.2.1 基于字符串匹配的分词算法18-19
  • 2.2.2 基于统计的分词算法19-22
  • 2.2.3 基于理解的分词算法22-23
  • 2.3 分布式文件系统HDFS研究23-27
  • 2.3.1 分布式文件系统简介23
  • 2.3.2 HDFS系统架构概述23-24
  • 2.3.3 分布式文件系统读写数据流24-27
  • 2.4 MapReduce编程模型27-28
  • 2.4.1 MapReduce模型概述27
  • 2.4.2 MapReduce的作业处理流程27-28
  • 2.5 倒排索引28-29
  • 2.5.1 倒排索引的概述28
  • 2.5.2 倒排索引的构建28-29
  • 2.6 本章小结29-30
  • 第三章 非结构化数据倒排索引更新策略30-42
  • 3.1 引言30-31
  • 3.2 动态索引与更新策略31-33
  • 3.2.1 动态索引31
  • 3.2.2 动态索引更新策略31-33
  • 3.3 基于动态哈夫曼树的更新算法33-37
  • 3.3.1 提高合并效率的策略33
  • 3.3.2 动态哈夫曼树33-35
  • 3.3.3 基于DHT的索引归并算法35-36
  • 3.3.4 基于DHT的索引碎片处理机制36-37
  • 3.4 实验与分析37-41
  • 3.4.1 实验环境37
  • 3.4.2 实验结果与分析37-41
  • 3.5 本章小结41-42
  • 第四章 结合向量空间模型和PageRank的结果排序算法42-55
  • 4.1 引言42
  • 4.2 向量空间模型42-44
  • 4.3 PageRank结果排序算法的改进44-47
  • 4.3.1 传统的PageRank结果排序算法44-46
  • 4.3.2 改进的PageRank结果排序算法46-47
  • 4.4 结合向量空间模型和PageRank的结果排序算法47-48
  • 4.5 实验与分析48-54
  • 4.5.1 实验环境与实验方案48-49
  • 4.5.2 评价标准49-50
  • 4.5.3 实验结果与分析50-54
  • 4.6 本章小结54-55
  • 第五章 总结与展望55-57
  • 5.1 论文工作总结55-56
  • 5.2 研究展望56-57
  • 参考文献57-61
  • 致谢61-62
  • 攻读学位期间的研究成果62

【相似文献】

中国期刊全文数据库 前10条

1 刘晴;;昆腾创新归档解决方案减轻了主存储上非结构化数据增长的负担[J];计算机与网络;2013年23期

2 缪红;钟华;龙昕;;元器件企业保护非结构化大数据的研究[J];电子元件与材料;2014年06期

3 王晓丽;;基于网络的中学非结构化教育资源建设探析[J];中国教育信息化;2007年08期

4 ToddMatsler;;深耕大数据 助力平安城市智慧转型[J];中国信息界;2013年12期

5 经有国;但斌;张旭梅;郭钢;;基于本体的非结构化客户需求智能解析方法[J];计算机集成制造系统;2010年05期

6 张广泉;非结构化程序流程图及其等价变换[J];重庆师范学院学报(自然科学版);1993年03期

7 王晓波;;非结构化数据采集和检索技术的研究与实现[J];中国内部审计;2014年07期

8 黄远鸣;;一种非结构化数据的多牵度分配存取实现方法[J];科技通报;2014年08期

9 刘威,武家春,廖建新,丁轶;非结构化补充业务数据中心的设计与实现[J];计算机工程与应用;2005年10期

10 罗文华;;非结构化数据处理分析在电子数据取证中的应用[J];警察技术;2010年03期

中国重要会议论文全文数据库 前10条

1 祝世京;陈s,

本文编号:418863


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/418863.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户10166***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com