当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于云平台的数据库搜索引擎实现方法的研究

发布时间:2020-12-28 20:42
  随着电子商务信息快速地增长,在日益复杂的网络环境中搜索信息变得越来越重要,电子商务未来发展趋势将是搜索引擎和电子商务的结合。面对海量数据,传统数据库搜索引擎已经无能为力,主要存在三个问题,一是单点故障问题,二是索引效率问题,三是搜索结果准确率问题,很难满足应用要求,如何提高系统的性能是亟需解决的问题。针对传统数据库搜索引擎系统的不足,本文开展基于云平台的数据库搜索引擎实现方法的研究。首先,提出基于云平台的数据库搜索引擎体系结构,使现有的数据库搜索引擎系统在HBase分布式数据库中得到实现,以提高了索引和搜索效率;其次,提出新的数据预处理方法,改进了关系型数据库和HBase分布式数据库之间的数据交互技术,简化了项目开发的框架;接着,提出基于Levenshtein Distance矢量距离算法的搜索评分机制,通过计算关键字间的相似度来判定用户注册重复数据,提高搜索结果的准确率。最后,在电商公司BI部门,实现了基于云平台的数据库搜索引擎的原型系统。测试结果表明,本文提出的系统具有更好的准确性、高效性和扩展性。本文的研究成果在云计算、数据库搜索引擎及其应用领域具有一定的理论价值和很好的应用前景... 

【文章来源】:南京邮电大学江苏省

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题研究背景
    1.2 国内外研究现状
    1.3 论文研究的目标和内容
        1.3.1 研究目标
        1.3.2 研究内容
    1.4 论文课题来源和主要贡献
        1.4.1 论文课题来源
        1.4.2 论文主要贡献
    1.5 论文章节安排
第二章 云计算平台及关键技术
    2.1 MapReduce 编程模型
    2.2 HDFS 分布式文件系统
    2.3 数据交互技术
    2.4 内存缓存技术
    2.5 本章小结
第三章 全文检索技术
    3.1 Lucene 简介
    3.2 Lucene 索引功能
    3.3 Lucene 搜索功能
        3.3.1 Lucene 搜索机制
        3.3.2 搜索评分机制
    3.4 Lucene 和数据库的检索功能区别
    3.5 文本分析方法
        3.5.1 英文分词
        3.5.2 中文分词
    3.6 本章小结
第四章 基于云平台的数据库搜索引擎体系结构的研究
    4.1 系统需求分析
    4.2 系统总体结构的设计
    4.3 数据预处理子系统的设计
    4.4 索引子系统的设计
    4.5 搜索子系统的设计
    4.6 本章小结
第五章 数据预处理方法及搜索评分机制的研究
    5.1 数据预处理方法
        5.1.1 静态数据处理
        5.1.2 动态数据处理
    5.2 搜索评分机制
    5.3 本章小结
第六章 原型系统的实现和性能测试
    6.1 数据预处理子系统的实现
    6.2 索引子系统的实现
        6.2.1 分词器
        6.2.2 生成分布式索引模块
    6.3 搜索子系统的实现
    6.4 系统性能测试
        6.4.1 数据预处理子系统性能测试
        6.4.2 索引子系统性能测试
        6.4.3 搜索子系统性能测试
    6.5 本章小结
第七章 总结与展望
    7.1 总结
    7.2 展望
参考文献
附录 1 攻读硕士学位期间申请的专利
附录 2 攻读硕士学位期间参加的科研项目
致谢


【参考文献】:
期刊论文
[1]基于Hadoop的分布式搜索引擎关键技术[J]. 王俊生,施运梅,张仰森.  北京信息科技大学学报(自然科学版). 2011(04)
[2]模糊查找算法的设计实现[J]. 郑志宏,郑志高,王玉婷.  情报科学. 2010(06)
[3]基于Lucene的Oracle数据库全文检索[J]. 葛振国,李建,何林糠,吴军.  信息技术. 2010(03)
[4]基于关键字的数据库搜索研究综述[J]. 朱凡微,吴明晖,金苍宏,吕嘉,应晶.  计算机应用研究. 2008(11)
[5]基于Lucene全文检索引擎的应用与改进[J]. 吴青,夏红霞,赵广辉,刘春燕.  武汉理工大学学报. 2008(07)
[6]基于MapReduce的分布式光线跟踪的设计与实现[J]. 郑欣杰,朱程荣,熊齐邦.  计算机工程. 2007(22)
[7]Lucene与关系型数据库对比[J]. 王学辉,金丹.  电脑知识与技术(学术交流). 2007(03)
[8]基于P2P的分布式检索模式的研究[J]. 董华山,孙济庆.  情报学报. 2004 (06)

硕士论文
[1]云计算平台在搜索引擎中的关键技术研究[D]. 蒋明原.中北大学 2011
[2]基于Hadoop的分布式搜索引擎研究与实现[D]. 封俊.太原理工大学 2010
[3]土豆网视频搜索引擎系统的设计与实现[D]. 谢兵.上海交通大学 2010
[4]基于Hadoop的海量数据处理模型研究和应用[D]. 朱珠.北京邮电大学 2008



本文编号:2944376

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2944376.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户636e4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com