特定网站主动发现与验证系统的设计与实现
发布时间:2017-04-16 20:09
本文关键词:特定网站主动发现与验证系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着网络技术的快速发展以及网络服务的不断普及,网民对于网络的依赖性逐渐加强。网络技术的发展也导致各类特定网站的出现,使得网民的经济财产受到损失。特定网站是指含有对社会稳定、个体信息与隐私安全造成威胁的信息的网站,特定网站大多分布于境外,具有增长速度快、传播途径多的特点。对于这些特定网站信息用被动发现是远远不够的,研究特定网站主动发现技术成为亟待解决的问题,因此,本文以此为重点,查阅相关文献,对特定网站主动发现技术进行了深入研究,提出了一种基于主动发现技术的特定网站探测和验证系统。论文针对主动发现覆盖广度以及准确度问题,运用元搜索发现技术、垂直搜索跟踪技术提出了一种基于用户白名单以及关键字的主动发现技术,系统将通过元搜索技术,利用搜索引擎模板,对白名单网站和关键字进行处理,将关键字范围扩大,对新生成的关键字通过垂直搜索进行专项跟踪,利用专项搜索模板发现可疑的特定网站URL。针对主动发现技术提取的可疑URL,系统利用基于页面Title比对与基于页面结构比对验证技术进行网页验证。论文通过页面Title及结构提取将网页特征提取出来,页面Title通过Title校验字符串切割提取出Title关键字进行比对,系统通过页面结构生成DOM树,通过DOM节点筛选算法提取出页面VTree,利用页面结构比对算法计算出最终的结果。系统测试表明各模块均能正常运行,并且各算法均能达到相应指标,平均每天发现可疑特定网站883条,平均通过验证确定特定网站57条,误报率漏报率均不超过15%。
【关键词】:主动发现 网页结构 节点筛选 网页比对
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 绪论8-20
- 1.1 课题研究背景和意义8
- 1.2 网页爬虫相关介绍8-13
- 1.2.1 通用网络爬虫9-10
- 1.2.2 聚焦网络爬虫10-11
- 1.2.3 增量式网络爬虫11-12
- 1.2.4 深层网络爬虫12-13
- 1.3 爬虫及网页内容解析研究13-16
- 1.4 网站相似度研究16-17
- 1.5 本课题研究内容与方法17-18
- 1.6 本文工作内容及组织结构18-20
- 第2章 主动发现技术研究20-31
- 2.1 元搜索发现技术研究20-25
- 2.1.1 整体技术设计20-21
- 2.1.2 网页内容抽取模块21
- 2.1.3 网页数据解析模块21-23
- 2.1.4 搜索任务解析模块23-24
- 2.1.5 URL去重模块24-25
- 2.1.6 元搜索发现技术案例25
- 2.2 垂直搜索跟踪技术研究25-29
- 2.2.1 整体技术设计25-26
- 2.2.2 网页跳转调度模块26-27
- 2.2.3 垂直搜索跟踪技术案例27-29
- 2.3 主动发现技术测试与分析29-30
- 2.4 本章小结30-31
- 第3章 网页Title比对方法研究31-39
- 3.1 网页Title提取方法设计与实现31-33
- 3.1.1 网页Title解析31-32
- 3.1.2 网页Title验证32-33
- 3.2 网页Title比对方法设计与实现33-37
- 3.2.1 网页Title比对算法设计33-34
- 3.2.2 网页Title比对算法实现34-37
- 3.3 网页Title比对方法测试与分析37-38
- 3.4 本章小结38-39
- 第4章 网页结构比对方法研究39-53
- 4.1 DOM树节点筛选算法设计与实现39-44
- 4.1.1 DOM树节点筛选算法设计39-42
- 4.1.2 DOM树节点筛选算法实现42-44
- 4.2 基于网页VTree的网页相似度比对算法设计与实现44-50
- 4.2.1 基于网页VTree的网页相似度比对算法设计44-48
- 4.2.2 基于网页VTree的网页相似度比对算法参数选取48-49
- 4.2.3 基于网页VTree的网页相似度比对算法实现49-50
- 4.3 网页结构比对算法测试与分析50-52
- 4.3.1 DOM树节点筛选算法测试与分析50-51
- 4.3.2 基于网页VTree的网页相似度比对方法测试与分析51-52
- 4.4 本章小结52-53
- 第5章 系统设计与实现53-64
- 5.1 系统设计53-58
- 5.1.1 系统整体设计53
- 5.1.2 网页特征生成模块53-54
- 5.1.3 元搜索发现模块54-55
- 5.1.4 垂直搜索跟踪模块55-56
- 5.1.5 验证模块56-58
- 5.2 数据库设计58-61
- 5.3 系统整体测试案例61-63
- 5.4 本章小结63-64
- 结论64-65
- 参考文献65-69
- 攻读硕士学位期间发表的论文及其他成果69-71
- 致谢71
【参考文献】
中国期刊全文数据库 前3条
1 何忠秀;王霜;安礼成;;基于向量空间的网页内容相似度计算方法研究[J];计算机与现代化;2010年09期
2 吴鹏飞;孟祥增;刘俊晓;马凤娟;;网页区域分割与识别技术[J];现代计算机;2006年06期
3 陈大业;刘佳;卢凤晖;李丙辉;;基于Web的坐标数据解析方法[J];邮电设计技术;2015年05期
中国硕士学位论文全文数据库 前3条
1 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年
2 张晓雷;面向Web挖掘的主题网络爬虫的研究与实现[D];西安电子科技大学;2012年
3 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
本文关键词:特定网站主动发现与验证系统的设计与实现,,由笔耕文化传播整理发布。
本文编号:311571
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/311571.html