基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现

发布时间:2022-08-23 16:24
  随着近几年经济飞速发展和人民生活水平的提高,健康问题也越来越受人们重视。而在使用当前传统搜索引擎搜索健康领域信息时,搜索结果中往往存在大量的广告信息,并且专业性、权威性较差。针对该问题,本课题基于改进的Shark-Search算法实现了一个健康领域的垂直搜索引擎,课题主要工作如下:(1)对Shark-Search算法的不足进行改进。针对Shark-Search算法使用链接上下文计算导致噪音链接对主题链接判定产生负面影响的不足,将链接上下文改为使用网页标题来计算,其他计算因素不变;针对Shark-Search算法的“近视问题”,提出将Shark-Search算法与OPIC算法相结合。通过实验表明Shark-Search改进算法较Shark-Search算法、OPIC算法、shark-PageRank算法在查准率上分别提高了7.8%、14.1%、0.9%,在查全率(目标召回率)上分别提高了 11.8%、17.7%、2.9%。(2)基于改进的Shark-Search算法实现健康领域的爬虫,并基于爬取的数据开发了一个健康领域的垂直搜索引擎。将本垂直搜索引擎与百度和必应搜索对比测试,结果表明本垂... 

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究背景及意义
    1.2 课题研究现状
    1.3 课题主要研究内容
    1.4 论文组织结构
第2章 爬虫的相关技术
    2.1 主题爬虫相关理论
        2.1.1 通用爬虫
        2.1.2 主题爬虫
    2.2 爬虫框架
        2.2.1 Nutch爬虫框架
        2.2.2 Heritrix爬虫框架
        2.2.3 WebMagic爬虫框架
    2.3 中文分词技术
        2.3.1 基于词典的分词方法
        2.3.2 基于统计的分词方法
        2.3.3 基于人工智能技术的分词方法
    2.4 URL去重
    2.5 主题爬虫的搜索策略
        2.5.1 HITs算法
        2.5.2 PageRank算法
        2.5.3 OPIC算法
        2.5.4 Shark-Search算法
    2.6 主题判定模型
    2.7 搜索引擎
        2.7.1 搜索引擎的工作原理
        2.7.2 搜索引擎服务器
    2.8 本章小结
第3章 Shark-Search算法的改进及实验结果分析
    3.1 Shark-Search算法的缺点分析
    3.2 Shark-Search算法与OPIC算法结合
    3.3 实验环境
    3.4 性能评价指标
    3.5 种子链接选取及主题特征向量的生成
        3.5.1 种子链接选取
        3.5.2 主题特征向量的生成
    3.6 实验结果及分析
    3.7 本章总结
第4章 健康垂直搜索引擎的设计与实现
    4.1 需求分析
        4.1.1 功能需求分析
        4.1.2 性能需求分析
    4.2 搜索引擎设计与实现
        4.2.1 搜索引擎整体架构设计
        4.2.2 数据库设计
        4.2.3 中文分词的实现
        4.2.4 去重模块的实现
        4.2.5 索引模块的实现
        4.2.6 查询模块的实现
    4.3 搜索引擎测试
    4.4 本章总结
第5章 总结与期望
    5.1 总结
    5.2 期望
致谢
参考文献


【参考文献】:
期刊论文
[1]中文分词技术综述[J]. 冯俐.  现代计算机(专业版). 2018(34)
[2]面向区域农业信息的垂直搜索引擎研究[J]. 李果.  山西农经. 2018(13)
[3]一种改进的正向最大匹配算法[J]. 严良达.  福建电脑. 2017(12)
[4]基于N-gram模型的中文分词算法的研究[J]. 丁洁,赵景惠.  福建电脑. 2017(05)
[5]一种改进Shark-Search的主题爬虫算法[J]. 仇磊,娄渊胜,常民.  微型电脑应用. 2017(02)
[6]中文分词技术对中文搜索引擎的查准率及查全率的影响[J]. 冯佳捷,王瑞.  计算机光盘软件与应用. 2013(06)
[7]基于Shark-Search和Hits算法的主题爬虫研究[J]. 罗林波,陈绮,吴清秀.  计算机技术与发展. 2010(11)
[8]一种改进的长词优先逆向最大匹配分词消歧策略[J]. 田占霄,韩宪忠,王克俭.  河北农业大学学报. 2009(04)
[9]基于Hash结构的逆向最大匹配分词算法的改进[J]. 丁振国,张卓,黎靖.  计算机工程与设计. 2008(12)
[10]基于词典和词频的中文分词方法[J]. 张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.  微计算机信息. 2008(03)

博士论文
[1]面向垂直搜索引擎的主题爬行技术研究[D]. 陈竹敏.山东大学 2008

硕士论文
[1]基于Lucene的常用药品垂直搜索引擎的研究与实现[D]. 冯燕茹.西安电子科技大学 2019
[2]基于ElasticSearch面向M00C的垂直搜索引擎设计与实现[D]. 段晨迪.北京交通大学 2019
[3]主题搜索及其关键算法的研究[D]. 吕鑫.西安电子科技大学 2018
[4]基于Scrapy的分布式网络爬虫系统设计与实现[D]. 樊宇豪.电子科技大学 2018
[5]基于Lucene的蒙古文搜索引擎的设计与实现[D]. 贾雪军.内蒙古大学 2018
[6]面向美食的垂直搜索引擎的设计与实现[D]. 杜明卉.吉林大学 2018
[7]基于改进PageRank算法的医学垂直搜索引擎的研究与实现[D]. 周米雪.长安大学 2017
[8]基于Nutch和Solr的旅游信息垂直搜索引擎的研究和实现[D]. 陈桂贤.海南大学 2016
[9]面向工程技术的主题爬虫的研究与实现[D]. 李欢.华中科技大学 2016
[10]主题爬虫搜索策略及关键技术研究[D]. 徐宁.重庆大学 2015



本文编号:3678099

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3678099.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7520***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com