基于主题的多线程网络爬虫系统的研究与实现
本文关键词:基于主题的多线程网络爬虫系统的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的蓬勃发展,网络上的信息呈现爆炸式增长。由于互联网上的数据过于庞大,数据增长快而且更新十分迅速,并且具有很强的动态性,所以用户难以快速准确的获取到自己需要的信息。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料,同时尽可能忽略掉不相关的信息,搜索引擎技术应运而生。作为一个辅助人们检索信息的工具、用户访问万维网的入口和指南,搜索引擎的目标是达到尽可能高的网络覆盖率,但是高的网络覆盖率又会导致其为用户提供的无用信息过多。此外传统搜索引擎提供的特定领域的信息检索结果不够专业,无法满足特定领域、特定专业人群的特定需求。 为了解决传统搜索引擎的局限性,本文设计并实现了一种基于主题的多线程网络爬虫系统,用于爬取互联网中的新闻和博客页面。本文完成了以下工作: 首先,研究传统网络爬虫和已有的主题爬虫的相关技术,并对其进行简单介绍; 其次,针对系统在文本去重方面的需求,对文本去重技术进行研究和探讨,提出了基于语义指纹和LCS的文本快速去重方法; 再次,对系统进行需求分析,并根据需求分析对系统功能和数据库进行总体设计; 最后,对系统的主要功能模块进行了详细设计,包括功能模块详细设计、处理流程设计,描述了系统关键模块的代码实现,并简单展示了系统的运行界面。 研究并实现的基于主题的多线程网络爬虫系统支持多任务、多线程爬取页面,支持用户进行参数配置、主题配置。该系统能提供实时的针对某一特定领域的新闻、博客信息的爬取。本文最后从数据抓取速率及主题判断的准确度两个方面对系统的性能进行验证,结果表明本系统能达到较高的网页抓取速率,在主题资源搜索方面具有较高的准确度和覆盖率,同时具备良好的文本去重效果。
【关键词】:主题爬虫 文本去重 simhash LCS 相关度
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-7
- 目录7-10
- 第一章 绪论10-14
- 1.1 研究背景10-11
- 1.2 国内外研究现状11-12
- 1.3 本文主要研究工作12
- 1.4 论文组织结构12-14
- 第二章 爬虫基本原理及相关技术14-20
- 2.1 爬虫技术14
- 2.2 通用爬虫14-17
- 2.2.1 通用爬虫的基本工作流程14-15
- 2.2.2 通用爬虫爬行策略15-16
- 2.2.3 通用爬虫的不足16-17
- 2.3 主题爬虫17-19
- 2.3.1 主题爬虫的结构17
- 2.3.2 主题爬虫的搜索策略17-19
- 2.4 Crawler4J介绍19
- 2.5 本章小结19-20
- 第三章 系统关键算法研究20-34
- 3.1 相关背景20-21
- 3.2 基于语义指纹与LCS的文本去重方法21-22
- 3.3 去重模型22
- 3.4 特征向量生成22-25
- 3.4.1 生成内容特征向量22-24
- 3.4.2 生成摘要特征向量24-25
- 3.5 语义指纹生成25-26
- 3.6 相似度计算26-29
- 3.6.1 指纹相似度计算方法26-27
- 3.6.2 内容相似度计算方法27-29
- 3.7 去重方法实现流程29-30
- 3.8 实验验证30-33
- 3.9 本章小结33-34
- 第四章 系统需求分析与总体功能的设计34-55
- 4.1 系统需求分析与系统目标34-36
- 4.1.1 功能性需求34-35
- 4.1.2 非功能性需求35-36
- 4.1.3 系统目标36
- 4.2 网络架构设计36-37
- 4.3 系统层次结构设计37-38
- 4.4 系统功能架构38-40
- 4.5 系统流程设计40-42
- 4.6 数据库设计42-51
- 4.6.1 概念模型设计42-43
- 4.6.2 数据库逻辑结构设计43-45
- 4.6.3 物理表的设计45-51
- 4.7 主要接口设计51-53
- 4.8 界面总体设计53-54
- 4.8.1 界面设计原则53
- 4.8.2 界面设计53-54
- 4.9 本章小结54-55
- 第五章 系统主要功能模块的设计与实现55-77
- 5.1 多线程爬虫模块55-61
- 5.1.1 功能设计55-58
- 5.1.2 流程设计58-60
- 5.1.3 页面更新检测60
- 5.1.4 关键代码60-61
- 5.2 主题判定模块61-64
- 5.2.1 功能设计61-62
- 5.2.2 流程设计62
- 5.2.3 算法设计62-63
- 5.2.4 关键代码63-64
- 5.3 文本去重模块64-69
- 5.3.1 功能设计64
- 5.3.2 流程设计64-65
- 5.3.3 算法设计65
- 5.3.4 关键代码65-69
- 5.4 信息检索模块69-72
- 5.4.1 功能设计69
- 5.4.2 构建全文索引69-70
- 5.4.3 信息检索实现流程70-71
- 5.4.4 关键代码71-72
- 5.5 系统界面设计与展示72-76
- 5.5.1 界面整体结构设计72
- 5.5.2 界面展示72-76
- 5.6 本章小结76-77
- 第六章 实验及结果分析77-85
- 6.1 实验环境77
- 6.2 系统功能测试77-81
- 6.3 系统性能测试81-84
- 6.3.1 测试性能指标82
- 6.3.2 实验结果及评估82-84
- 6.4 本章小结84-85
- 第七章 总结与展望85-87
- 7.1 论文工作总结85-86
- 7.2 问题和展望86-87
- 参考文献87-89
- 致谢89-90
- 攻读学位期间发表的学术论文90
【共引文献】
中国期刊全文数据库 前10条
1 沈乐平;黄维民;饶天贵;;基于支持向量机的上市公司违规预警模型研究[J];中大管理研究;2008年02期
2 蔡冬松;靖继鹏;;基于最小二乘支持向量机的数据挖掘应用研究[J];情报科学;2005年12期
3 陈涛;谢阳群;;基于支持向量机的外贸企业客户分类方法应用研究[J];情报科学;2006年07期
4 余传明;张小青;陈雷;;基于LDA模型的评论热点挖掘:原理与实现[J];情报理论与实践;2010年05期
5 王东波;苏新宁;朱丹浩;年洪东;;基于支持向量机的医学期刊文章自动分类研究[J];情报理论与实践;2011年04期
6 夏火松;刘建;;基于VSM的文本分类挖掘算法综述[J];情报探索;2010年09期
7 于承敏;凌海云;郑丽萍;;数字图书馆中基于内容的图像检索研究[J];情报探索;2011年04期
8 张爱丽,刘广利,刘长宇;基于SVM的多类文本分类研究[J];情报杂志;2004年09期
9 程娟;平西建;童莉;杨洋;;基于信息度量与SVM的文本图像自动提取技术[J];情报杂志;2006年04期
10 孙超;张玉峰;;基于SVM的企业竞争情报自动分类系统模型[J];情报杂志;2007年03期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
7 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 郭玮;李智勇;朱晟;孙慧;;支持向量机在变压器油溶解气体检测中的应用[A];第一届电力安全论坛优秀论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
9 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
10 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
5 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
6 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
7 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
8 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
9 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
10 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
本文关键词:基于主题的多线程网络爬虫系统的研究与实现,,由笔耕文化传播整理发布。
本文编号:318342
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/318342.html