当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现

发布时间:2021-08-02 05:59
  在数据量呈爆炸式增长的大数据时代,互联网数据成为21世纪最重要的资源,同时也是人工智能发展的基石。如何精准、快速地从互联网资源中获取有用的数据成为当前研究的热点。通用搜索引擎尽量为用户查询并返回更多的数据,但是返回的数据中非用户需要数据占据多数。主题搜索引擎是通过检索用户给定的主题信息,来提高搜索引擎的速度与准确率,因此成为搜索引擎研究的主要方向。网络爬虫是搜索引擎中重要的组成部分,专为搜索引擎从互联网上获取网络资源。主题爬虫领域的三类经典算法其中包括:基于链接的算法、基于内容的算法和链接与内容相结合的算法。本文首先对基于内容的Shark-Search算法中存在的不足进行优化,然后对基于链接与内容相结合的OTIE自适应算法中存在的问题进行解决,最后在两个改进算法的基础上实现主题爬虫系统。主要研究内容如下:(1)基于内容的主题爬虫算法Shark-Search的改进。针对Shark-Search算法在计算子链接主题相关度时易受到其上下文信息量不足和噪音链接的影响,提出改进算法ESS(Enhance Shark-Search)。首先,ESS算法不再通过简单的关键词与子链接上下文内容进行相似度... 

【文章来源】:江苏大学江苏省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现


新浪首页链接块

航空公司,主题,子链,推广效果


基于 Shark-Search 与 OTIE 自适应算法的主题爬虫关键技术研究与实现实现推广效果,链接周边只有图片没有锚文本信息等特点。本文将考虑从 HTML的标签以及子链接周边 CSS 样式提取特征,来计算子链接的预判权重。

搜索算法,主题,主题词,子链


20图 3.3“搜索算法”主题截图鉴于以上两种情况,本章在计算子链接的主题相关度时,将做两方面的改进:(1)针对子链接上下文的局限性,本章将引入迭代式扩展-过滤的思想来扩展主题词集,然后将稳定的主题词集通过 Word2Vec[39]训练出主题词向量模型,

【参考文献】:
期刊论文
[1]Web异步加载技术分析及信息爬取策略实现[J]. 杜润泽,梁英,方英兰.  电脑知识与技术. 2018(24)
[2]基于Web结构的数据挖掘中HITS算法的研究[J]. 赵炎.  黑龙江教育(理论与实践). 2018(05)
[3]词向量聚类加权Shark-Search的主题爬虫策略研究[J]. 程元堃,廖闻剑,程光.  计算机与数字工程. 2018(01)
[4]对反爬虫网站的应对策略[J]. 刘石磊.  电脑知识与技术. 2017(15)
[5]面向专用信息获取的用户定制主题网络爬虫技术研究[J]. 薛丽敏,吴琦,李骏.  信息网络安全. 2017(02)
[6]一种基于链接和内容分析的自适应主题爬虫算法[J]. 朱庆生,徐宁,周瑜.  计算机与现代化. 2015(09)
[7]基于索引属性改进的OPIC算法[J]. 田文波,徐洪珍,卢群乐.  计算机系统应用. 2015(07)
[8]一种改进Best-First算法的主题爬虫搜索算法[J]. 丁发梅.  信息通信. 2015(04)
[9]基于改进Fish-Search算法的机弹协同航线规划[J]. 孙涛,谢晓方,孙永芹.  弹箭与制导学报. 2010(03)
[10]PageRank算法中主题漂移的研究[J]. 高琪,张永平.  微计算机信息. 2010(09)

博士论文
[1]基于主题的互联网信息抓取研究[D]. 杨肖.浙江大学 2014
[2]主题搜索引擎聚类算法的研究[D]. 李群.北京林业大学 2011
[3]面向垂直搜索引擎的主题爬行技术研究[D]. 陈竹敏.山东大学 2008

硕士论文
[1]基于HITS与Shark-Search的主题爬虫关键技术研究与实现[D]. 刘礼刚.江苏大学 2018
[2]基于网页分块的主题爬虫技术研究[D]. 周雪.山东师范大学 2017
[3]基于改进shark-search算法的主题爬虫的研究与实现[D]. 张文跃.内蒙古大学 2015
[4]基于Fish-search算法的垂直搜索引擎研究与设计[D]. 舒奔.安徽理工大学 2014
[5]主题爬虫算法的研究与实现[D]. 杜娟娟.兰州交通大学 2013
[6]面向垂直搜索引擎的主题爬虫方法研究[D]. 王良伟.重庆大学 2013
[7]基于Nutch的学术搜索引擎的研究与实现[D]. 夏树倩.东北大学 2011
[8]主题爬虫穿越隧道算法研究与设计[D]. 常旭.山东科技大学 2011
[9]主题爬虫的实现及其关键技术研究[D]. 张航.武汉理工大学 2010
[10]基于垂直搜索引擎的主题爬虫算法的研究[D]. 陈可钦.中南林业科技大学 2009



本文编号:3317030

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3317030.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户561c9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com