基于忆阻神经网络的爬虫算法研究
发布时间:2020-12-29 06:27
在大数据时代,海量网络数据使得传统聚焦爬虫技术的缺点渐渐凸显。面对不断增高的用户信息搜索要求,聚焦爬虫技术迫切需要改进和优化。近年来,人工智能的发展为聚焦爬虫技术提供新的思路,运用人工智能技术研究聚焦爬虫算法已经成为爬虫领域的热点方向。在此背景下,本学位论文以忆阻神经网络模型为基础,主要研究忆阻神经网络爬虫算法和基于Scrapy的忆阻神经网络爬虫系统。具体工作概括如下:1)基于忆阻神经网络的爬虫算法研究本论文提出基于忆阻神经网络的爬虫算法,详细阐述该神经网络的激活传播过程,综合广度优先搜索和最佳优先搜索策略来设计基于忆阻神经网络的搜索算法,并提出基于忆阻器模型的主题相关性分析算法和基于信息熵的主题相关性算法。2)基于Scrapy的忆阻神经网络爬虫系统的设计和实现引入基于视觉信息的网页分块算法和基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的聚类算法,设计分块聚类算法解析网页;通过分析爬虫模块的调度关系与使用布隆过滤器,优化Scrapy框架下的URL去重;基于Scrapy开源爬虫框架,设计基于忆阻...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:99 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题来源
1.2 研究意义
1.3 国内外研究现状
1.3.1 忆阻神经网络的国内外研究现状
1.3.2 聚焦爬虫的国内研究现状
1.4 本文的主要工作
1.5 本文的组织结构
第二章 相关理论与技术
2.1 搜索引擎
2.1.1 通用搜索引擎
2.1.2 垂直搜索引擎
2.2 通用网络爬虫
2.2.1 通用网络爬虫的工作原理
2.2.2 通用网络爬虫的搜索策略
2.3 聚焦爬虫
2.3.1 聚焦爬虫的工作原理
2.3.2 聚焦爬虫的搜索策略
2.4 聚焦爬虫与通用网络爬虫的区别
2.5 本章小结
第三章 基于忆阻神经网络的爬虫算法研究
3.1 聚焦爬虫框架
3.1.1 Hopfield神经网络
3.1.2 忆阻神经网络
3.1.3 忆阻神经网络爬虫框架
3.2 聚焦爬虫工作原理
3.2.1 初始化
3.2.2 激活-传播-迭代
3.2.3 结束条件
3.2.4 以实际项目中的应用为例
3.3 聚焦爬虫搜索策略
3.3.1 基于内容评价的搜索策略
3.3.2 基于链接分析的搜索策略
3.3.3 基于忆阻神经网络的搜索策略
3.4 主题相关性分析算法
3.4.1 基于忆阻器模型的主题相关性分析算法
3.4.2 基于信息熵的主题相关性分析算法
3.5 本章小结
第四章 基于Scrapy的忆阻神经网络爬虫系统实现
4.1 体系结构
4.1.1 通用网络爬虫Scrapy
4.1.2 基于Scrapy的忆阻神经网络爬虫系统
4.2 网页解析模块
4.2.1 基于视觉信息的网页分块
4.2.2 基于DBSCAN的聚类算法
4.2.3 基于分块聚类的网页解析算法
4.3 爬虫模块
4.4 调度模块
4.5 本章小结
第五章 系统实验与分析
5.1 实验背景
5.2 实验环境与参数设置
5.2.1 实验环境
5.2.2 参数设置
5.3 实验评价指标
5.4 实验结果分析
5.4.1 基于忆阻神经网络的爬虫算法性能分析
5.4.2 分块聚类算法对爬虫性能的影响
5.4.3 爬虫系统的展示
5.4.4 词频统计
5.5 本章小结
第六章 总结和展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
附录
攻读硕士期间取得的研究成果
【参考文献】:
期刊论文
[1]一种基于语义向量空间模型的作业查重算法[J]. 黄菊. 电子科学技术. 2016(06)
[2]基于联想记忆的Hopfield神经网络的设计与实现[J]. 张少平,徐晓钟,马燕. 上海师范大学学报(自然科学版). 2016(01)
[3]垂直搜索引擎系统研究与实现[J]. 徐婕. 软件导刊. 2015(05)
[4]基于空间密度的群以噪声发现聚类算法研究[J]. 毕方明,王为奎,陈龙. 南京大学学报(自然科学版). 2012(04)
[5]人工智能在搜索引擎资源获取中的应用[J]. 谢娟文,秦淑娟,焦爱胜. 机械研究与应用. 2009(02)
[6]改进的PageRank在Web信息搜集中的应用[J]. 秦拯,张玲,李娜. 计算机研究与发展. 2006(06)
[7]基于链接聚类的Shark-Search算法[J]. 苏祺,项锟,孙斌. 山东大学学报(理学版). 2006(03)
[8]智能专题化信息搜集Crawler[J]. 钱榕,徐新华,郑莹,杨炳儒. 计算机工程. 2006(03)
[9]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[10]专业搜索引擎搜索策略综述[J]. 欧阳柳波,李学勇,李国徽,王鑫. 计算机工程. 2004(13)
硕士论文
[1]主题爬虫算法的研究与实现[D]. 杜娟娟.兰州交通大学 2013
[2]基于向量空间模型的中文文本相似度算法研究[D]. 陈飞宏.电子科技大学 2011
本文编号:2945184
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:99 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题来源
1.2 研究意义
1.3 国内外研究现状
1.3.1 忆阻神经网络的国内外研究现状
1.3.2 聚焦爬虫的国内研究现状
1.4 本文的主要工作
1.5 本文的组织结构
第二章 相关理论与技术
2.1 搜索引擎
2.1.1 通用搜索引擎
2.1.2 垂直搜索引擎
2.2 通用网络爬虫
2.2.1 通用网络爬虫的工作原理
2.2.2 通用网络爬虫的搜索策略
2.3 聚焦爬虫
2.3.1 聚焦爬虫的工作原理
2.3.2 聚焦爬虫的搜索策略
2.4 聚焦爬虫与通用网络爬虫的区别
2.5 本章小结
第三章 基于忆阻神经网络的爬虫算法研究
3.1 聚焦爬虫框架
3.1.1 Hopfield神经网络
3.1.2 忆阻神经网络
3.1.3 忆阻神经网络爬虫框架
3.2 聚焦爬虫工作原理
3.2.1 初始化
3.2.2 激活-传播-迭代
3.2.3 结束条件
3.2.4 以实际项目中的应用为例
3.3 聚焦爬虫搜索策略
3.3.1 基于内容评价的搜索策略
3.3.2 基于链接分析的搜索策略
3.3.3 基于忆阻神经网络的搜索策略
3.4 主题相关性分析算法
3.4.1 基于忆阻器模型的主题相关性分析算法
3.4.2 基于信息熵的主题相关性分析算法
3.5 本章小结
第四章 基于Scrapy的忆阻神经网络爬虫系统实现
4.1 体系结构
4.1.1 通用网络爬虫Scrapy
4.1.2 基于Scrapy的忆阻神经网络爬虫系统
4.2 网页解析模块
4.2.1 基于视觉信息的网页分块
4.2.2 基于DBSCAN的聚类算法
4.2.3 基于分块聚类的网页解析算法
4.3 爬虫模块
4.4 调度模块
4.5 本章小结
第五章 系统实验与分析
5.1 实验背景
5.2 实验环境与参数设置
5.2.1 实验环境
5.2.2 参数设置
5.3 实验评价指标
5.4 实验结果分析
5.4.1 基于忆阻神经网络的爬虫算法性能分析
5.4.2 分块聚类算法对爬虫性能的影响
5.4.3 爬虫系统的展示
5.4.4 词频统计
5.5 本章小结
第六章 总结和展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
附录
攻读硕士期间取得的研究成果
【参考文献】:
期刊论文
[1]一种基于语义向量空间模型的作业查重算法[J]. 黄菊. 电子科学技术. 2016(06)
[2]基于联想记忆的Hopfield神经网络的设计与实现[J]. 张少平,徐晓钟,马燕. 上海师范大学学报(自然科学版). 2016(01)
[3]垂直搜索引擎系统研究与实现[J]. 徐婕. 软件导刊. 2015(05)
[4]基于空间密度的群以噪声发现聚类算法研究[J]. 毕方明,王为奎,陈龙. 南京大学学报(自然科学版). 2012(04)
[5]人工智能在搜索引擎资源获取中的应用[J]. 谢娟文,秦淑娟,焦爱胜. 机械研究与应用. 2009(02)
[6]改进的PageRank在Web信息搜集中的应用[J]. 秦拯,张玲,李娜. 计算机研究与发展. 2006(06)
[7]基于链接聚类的Shark-Search算法[J]. 苏祺,项锟,孙斌. 山东大学学报(理学版). 2006(03)
[8]智能专题化信息搜集Crawler[J]. 钱榕,徐新华,郑莹,杨炳儒. 计算机工程. 2006(03)
[9]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[10]专业搜索引擎搜索策略综述[J]. 欧阳柳波,李学勇,李国徽,王鑫. 计算机工程. 2004(13)
硕士论文
[1]主题爬虫算法的研究与实现[D]. 杜娟娟.兰州交通大学 2013
[2]基于向量空间模型的中文文本相似度算法研究[D]. 陈飞宏.电子科技大学 2011
本文编号:2945184
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2945184.html