基于贝叶斯的分布式网页自动分类算法研究及应用
本文关键词:基于贝叶斯的分布式网页自动分类算法研究及应用
更多相关文章: 网页自动分类 Hadoop云计算 朴素贝叶斯分类器 特征选择
【摘要】:伴随着移动互联网的快速发展,以及数据采集技术和数据存储技术的快速进步,使得各组织机构可以积累海量数据。而从中提取有用的信息已经成为巨大的挑战。为了应对挑战,数据挖掘技术和Hadoop云计算技术应运而生。本文研究的网页自动分类是数据挖掘的一个重要分支,在挖掘“商业价值”方面的作用突出,比如它能够帮助移动运营商回答这样的问题,“可以为哪些客户提供每月100元的包含流量和长途话费的套餐”。 本文聚焦于分布式网页自动分类系统的构建,将Hadoop云计算应用到网页分类中是本文的亮点之一。本文从网页自动分类综述开始;引出贝叶斯分类器和特征选择,以“框图”形式给出它们的MapReduce程序设计;继而从软件设计角度叙述分布式网页自动分类系统;最后以GB/TB级别的海量网络流量监控数据对分类性能进行实验分析。文中的创新点如下: (1)将Hadoop云计算技术应用到网页自动分类中,研究朴素贝叶斯分类器分布式并行算法,以应对GB/TB级别的海量网络流量监控数据分类的挑战。 (2)将Hadoop云计算技术应用到文本挖掘的特征选择中,研究设计与实现信息增益特征选择MapReduce并行算法,以应对GB/TB级别的海量网络流量监控数据特征选择的挑战。 (3)将概率统计的“累积概率”概念引入到文本分类特征选择的参数最优化问题中,通过累积概率实现特征向量大小最佳阈值的自适应选取。特征向量大小不仅关系到系统软件性能,更影响系统分类性能。本文提出评估鲁棒性的度量,并验证了“累积概率阈值”方案具有良好的鲁棒性,表明它适用于不同应用场景。 (4)将软件设计、Hadoop云计算和数据挖掘技术相结合,使用Hadoop云计算框架构建分布式网页自动分类系统。实施软件设计模式中的“外观模式”搭建网页自动分类系统框架,从上到下分为接口层、组件层和模块层。
【关键词】:网页自动分类 Hadoop云计算 朴素贝叶斯分类器 特征选择
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-14
- 1.1 研究背景10
- 1.2 研究现状和发展趋势10-11
- 1.3 研究内容和创新点11-12
- 1.4 论文结构12-14
- 第二章 网页自动分类和分布式框架综述14-26
- 2.1 网页自动分类的定义14
- 2.2 网页自动分类的一般方法14-15
- 2.3 网页自动分类的核心技术15-21
- 2.3.1 网络爬虫15-17
- 2.3.2 文本预处理17-18
- 2.3.3 样本标注18-19
- 2.3.4 特征选择19
- 2.3.5 学习算法19-21
- 2.4 Hadoop分布式系统基础架构21-26
- 2.4.1 Hadoop概述21
- 2.4.2 Hadoop存储21-22
- 2.4.3 Hadoop计算22-24
- 2.4.4 Hadoop在数据挖掘中的应用24-26
- 第三章 贝叶斯分类器研究及其分布式算法设计26-34
- 3.1 算法理论26-27
- 3.2 文本表示27-28
- 3.3 概率估计28-29
- 3.4 贝叶斯训练的分布式算法设计29-33
- 3.4.1 类条件概率训练的分布式算法设计29-31
- 3.4.2 类先验概率训练的分布式算法设计31-33
- 3.5 贝叶斯分类的分布式算法设计33-34
- 第四章 特征选择研究及其分布式算法设计34-40
- 4.1 特征选择策略34-35
- 4.2 特征选择算法35-37
- 4.3 信息增益特征选择的分布式算法设计37-40
- 第五章 分布式网页自动分类系统架构40-56
- 5.1 系统框架40
- 5.2 系统流程40-41
- 5.3 组件设计41-43
- 5.3.1 分类组件41-42
- 5.3.2 统计组件42
- 5.3.3 训练组件42-43
- 5.3.4 配置组件43
- 5.4 模块设计43-51
- 5.4.1 网页内容提取43-44
- 5.4.2 转储44-45
- 5.4.3 分词45-47
- 5.4.4 库匹配分类器47-49
- 5.4.5 贝叶斯训练与分类器49-51
- 5.5 库表设计51-56
- 5.5.1 HBase数据表设计51-53
- 5.5.2 PostgreSQL数据表设计53-56
- 第六章 分布式网页自动分类性能分析56-62
- 6.1 数据源56-57
- 6.2 累积概率阂值的鲁棒性分析57-58
- 6.3 概率估计方法的分类性能分析58
- 6.4 特征向量大小的分类性能分析58-60
- 6.5 特征选择算法的分类性能分析60-62
- 第七章 总结与展望62-64
- 7.1 总结62
- 7.2 展望62-64
- 参考文献64-66
- 致谢66-68
- 攻读学位期间发表的学术论文目录68
【共引文献】
中国期刊全文数据库 前10条
1 徐文权;;基于Symbian OS系统的垃圾短信过滤器设计与实现[J];安庆师范学院学报(自然科学版);2012年02期
2 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期
3 王辉;韩旭;王双成;王淑琴;赵洪帅;王莉;;连续属性朴素贝叶斯分类器的依赖扩展研究[J];东北师大学报(自然科学版);2012年02期
4 高洁;赵俊荣;;基于增量式Bayes的中文网页自动分类技术[J];电脑知识与技术;2006年14期
5 姜立标;马乐;余建伟;刘永花;;多阶段聚类—朴素贝叶斯的异常检测[J];重庆大学学报;2009年08期
6 魏延良;侯立刚;任立军;;垃圾邮件过滤系统的设计[J];辽宁石油化工大学学报;2008年01期
7 刘志明;刘鲁;;面向突发事件的群体情绪监控预警[J];系统工程;2010年07期
8 李凤;高昭良;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[J];国土资源遥感;2011年02期
9 王东;熊世桓;;一种基于特征置换的朴素贝叶斯分类器[J];兰州理工大学学报;2012年04期
10 王东;;面向文本分类的混合特征降维策略[J];贵州师范学院学报;2012年06期
中国重要会议论文全文数据库 前10条
1 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年
2 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,,自动化及先进集成技术大会论文集(一)[C];2007年
3 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 于海旭;王有伟;;基于高精确度的多策略本体映射[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 王自强;孙霞;钱旭;;基于信息瓶颈和拉普拉斯SVM的Web文档分类算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
8 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
9 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
4 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
5 杜炅;离散型随机变量的贝叶斯分类方法研究[D];北京大学;2011年
6 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
7 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
8 彭宏京;基于稀疏RAM的神经网络及其人脸识别应用研究[D];南京航空航天大学;2002年
9 齐建东;基于数据挖掘的入侵检测方法及系统研究[D];中国农业大学;2003年
10 王双成;面向智能数据处理的图形模式研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 黄美兰;车辆标志自动识别方法研究[D];西安电子科技大学;2011年
2 胡畅;用户行为分析系统设计[D];湖北工业大学;2011年
3 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
4 张建国;水平集方法特征提取及在医疗图像诊断中的应用[D];太原科技大学;2011年
5 黄鑫檑;西南地区学生辍学预警技术研究[D];上海师范大学;2011年
6 高鸿;文档图像拼接技术研究[D];中南大学;2011年
7 彭登;基于ARM的智能车型识别系统架构与关键技术研究[D];华南理工大学;2011年
8 黄思博;基于计算机视觉的异常驾驶行为检测方法研究[D];华南理工大学;2011年
9 陈思坤;医学图像的自动标注[D];电子科技大学;2011年
10 闫新河;云计算下自主诊断与自我修复研究[D];电子科技大学;2011年
本文编号:661931
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/661931.html