面向大数据的关键字检索算法研究及优化
发布时间:2017-03-28 17:11
本文关键词:面向大数据的关键字检索算法研究及优化,由笔耕文化传播整理发布。
【摘要】:针对传统检索模型在检索上存在的数据冗余、模糊匹配、检索结果差等缺点,结合当前研究热点,论述异构数据集成、冗余数据排除、高效数据分类、关键字检索等模型与方法,旨在大数据环境下,充分利用传统技术与虚拟化技术、MapReduce并行框架模型、改进向量空间检索模型等技术相结合优化存储模型、改进分类算法以及优化检索算法,进而提高算法运算效率,为用户提供一套集数据存储、数据分类、数据检索于一体的大数据检索基础平台。以关键字检索算法作为研究对象,主要研究内容为:首先,为了更好地对数据检索提供良好的数据存储基础,研究数据模型的设计与优化,并在云计算环境下研讨设计数据存储模型,文件块的数据更新算法设计,以及云存储的故障恢复机制等。第二,为了达到准确地对不同数据的检索要求,在原有分类算法的基础上提出了并行分类混合算法(PCHA算法),该算法利用邻近分类算法适合处理属性多、数据大的分类问题的优势,引入Map-Reduce并行框架与其融合设计,优化并提升原有分类算法的建模预测能力和分类识别率。第三,研讨传统检索算法并提出无序关键字检索算法(DKRA算法),该算法利用向量检索模型计算方便、复杂度低等优点,引入K-D矩阵构造及相似度等计算方法设计检索算法,并与计算关键字序列权重得到相关数据相似度的计算方法做比较,从而体现DKRA算法在计算效率上的优势。最后,在DKRA算法的基础上提出了有序关键字检索算法(OKRA算法),该算法利用检索关键字的有序性,给出了关键字检索步长、总体检索步长、相关数据检索步长、总体相关数据检索步长、位置匹配度的计算公式等的定义,在计算相似度中引入位置匹配度解决了由于检索关键字顺序组合造成的检索错误率问题,利用该算法可以过滤掉较差无关数据,降低数据集遍历所耗时长,提高了相关检索数据的返回质量。
【关键词】:大数据 存储模型 并行分类 关键字检索 算法优化
【学位授予单位】:华北理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;TP311.13
【目录】:
- 摘要4-5
- Abstract5-9
- 注释说明清单9-10
- 引言10-11
- 第1章 绪论11-16
- 1.1 研究背景及意义11-12
- 1.2 检索算法研究现状12-15
- 1.3 本文组织结构15-16
- 第2章 模型与算法16-36
- 2.1 大数据基础与技术16-23
- 2.1.1 大数据的发展背景16
- 2.1.2 大数据的概念和特征16-17
- 2.1.3 大数据的产生和类型17-18
- 2.1.4 大数据的存储和处理18-21
- 2.1.5 大数据的查询和分析21-22
- 2.1.6 大数据的分析和可视化22-23
- 2.2 存储模型与设计23-26
- 2.2.1 基于云计算的数据存储系统23-24
- 2.2.2 基于文件块的数据更新算法24-25
- 2.2.3 基于云存储的故障恢复机制25-26
- 2.3 分类模型与算法26-28
- 2.3.1 决策树分类模型27
- 2.3.2 朴素贝叶斯分类模型27-28
- 2.3.3 k最近邻分类模型28
- 2.4 检索模型与算法28-36
- 2.4.1 向量空间模型28-30
- 2.4.2 概率检索模型30-32
- 2.4.3 泊松检索模型32-34
- 2.4.4 布尔检索模型34-36
- 第3章 并行分类混合算法36-43
- 3.1 引言36
- 3.2 Map-Reduce模型36-38
- 3.3 PCHA算法提出38-40
- 3.3.1 相关定义38
- 3.3.2 算法设计38-40
- 3.4 算法验证及分析40-42
- 3.4.1 环境配置40
- 3.4.2 结果分析40-42
- 3.5 本章小结42-43
- 第4章 无序关键字检索算法43-51
- 4.1 引言43
- 4.2 DKRA算法提出43-45
- 4.2.1 基本定义43-44
- 4.2.2 改进算法44-45
- 4.3 算法验证及分析45-50
- 4.4 本章小结50-51
- 第5章 有序关键字检索算法51-59
- 5.1 引言51
- 5.2 正排索引和倒排索引51-55
- 5.2.1 正排索引51-53
- 5.2.2 倒排索引53-55
- 5.3 OKRA算法提出55-57
- 5.3.1 基本定义55
- 5.3.2 改进算法55-57
- 5.4 算法验证及分析57-58
- 5.5 本章小结58-59
- 结论59-60
- 参考文献60-64
- 附录64-68
- 致谢68-69
- 导师简介69-70
- 作者简介70-71
- 学位论文数据集71
本文关键词:面向大数据的关键字检索算法研究及优化,由笔耕文化传播整理发布。
,本文编号:272685
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/272685.html