当前位置:主页 > 管理论文 > 移动网络论文 >

基于贝叶斯的分布式网页自动分类算法研究及应用

发布时间:2017-08-12 14:01

  本文关键词:基于贝叶斯的分布式网页自动分类算法研究及应用


  更多相关文章: 网页自动分类 Hadoop云计算 朴素贝叶斯分类器 特征选择


【摘要】:伴随着移动互联网的快速发展,以及数据采集技术和数据存储技术的快速进步,使得各组织机构可以积累海量数据。而从中提取有用的信息已经成为巨大的挑战。为了应对挑战,数据挖掘技术和Hadoop云计算技术应运而生。本文研究的网页自动分类是数据挖掘的一个重要分支,在挖掘“商业价值”方面的作用突出,比如它能够帮助移动运营商回答这样的问题,“可以为哪些客户提供每月100元的包含流量和长途话费的套餐”。 本文聚焦于分布式网页自动分类系统的构建,将Hadoop云计算应用到网页分类中是本文的亮点之一。本文从网页自动分类综述开始;引出贝叶斯分类器和特征选择,以“框图”形式给出它们的MapReduce程序设计;继而从软件设计角度叙述分布式网页自动分类系统;最后以GB/TB级别的海量网络流量监控数据对分类性能进行实验分析。文中的创新点如下: (1)将Hadoop云计算技术应用到网页自动分类中,研究朴素贝叶斯分类器分布式并行算法,以应对GB/TB级别的海量网络流量监控数据分类的挑战。 (2)将Hadoop云计算技术应用到文本挖掘的特征选择中,研究设计与实现信息增益特征选择MapReduce并行算法,以应对GB/TB级别的海量网络流量监控数据特征选择的挑战。 (3)将概率统计的“累积概率”概念引入到文本分类特征选择的参数最优化问题中,通过累积概率实现特征向量大小最佳阈值的自适应选取。特征向量大小不仅关系到系统软件性能,更影响系统分类性能。本文提出评估鲁棒性的度量,并验证了“累积概率阈值”方案具有良好的鲁棒性,表明它适用于不同应用场景。 (4)将软件设计、Hadoop云计算和数据挖掘技术相结合,使用Hadoop云计算框架构建分布式网页自动分类系统。实施软件设计模式中的“外观模式”搭建网页自动分类系统框架,从上到下分为接口层、组件层和模块层。
【关键词】:网页自动分类 Hadoop云计算 朴素贝叶斯分类器 特征选择
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 绪论10-14
  • 1.1 研究背景10
  • 1.2 研究现状和发展趋势10-11
  • 1.3 研究内容和创新点11-12
  • 1.4 论文结构12-14
  • 第二章 网页自动分类和分布式框架综述14-26
  • 2.1 网页自动分类的定义14
  • 2.2 网页自动分类的一般方法14-15
  • 2.3 网页自动分类的核心技术15-21
  • 2.3.1 网络爬虫15-17
  • 2.3.2 文本预处理17-18
  • 2.3.3 样本标注18-19
  • 2.3.4 特征选择19
  • 2.3.5 学习算法19-21
  • 2.4 Hadoop分布式系统基础架构21-26
  • 2.4.1 Hadoop概述21
  • 2.4.2 Hadoop存储21-22
  • 2.4.3 Hadoop计算22-24
  • 2.4.4 Hadoop在数据挖掘中的应用24-26
  • 第三章 贝叶斯分类器研究及其分布式算法设计26-34
  • 3.1 算法理论26-27
  • 3.2 文本表示27-28
  • 3.3 概率估计28-29
  • 3.4 贝叶斯训练的分布式算法设计29-33
  • 3.4.1 类条件概率训练的分布式算法设计29-31
  • 3.4.2 类先验概率训练的分布式算法设计31-33
  • 3.5 贝叶斯分类的分布式算法设计33-34
  • 第四章 特征选择研究及其分布式算法设计34-40
  • 4.1 特征选择策略34-35
  • 4.2 特征选择算法35-37
  • 4.3 信息增益特征选择的分布式算法设计37-40
  • 第五章 分布式网页自动分类系统架构40-56
  • 5.1 系统框架40
  • 5.2 系统流程40-41
  • 5.3 组件设计41-43
  • 5.3.1 分类组件41-42
  • 5.3.2 统计组件42
  • 5.3.3 训练组件42-43
  • 5.3.4 配置组件43
  • 5.4 模块设计43-51
  • 5.4.1 网页内容提取43-44
  • 5.4.2 转储44-45
  • 5.4.3 分词45-47
  • 5.4.4 库匹配分类器47-49
  • 5.4.5 贝叶斯训练与分类器49-51
  • 5.5 库表设计51-56
  • 5.5.1 HBase数据表设计51-53
  • 5.5.2 PostgreSQL数据表设计53-56
  • 第六章 分布式网页自动分类性能分析56-62
  • 6.1 数据源56-57
  • 6.2 累积概率阂值的鲁棒性分析57-58
  • 6.3 概率估计方法的分类性能分析58
  • 6.4 特征向量大小的分类性能分析58-60
  • 6.5 特征选择算法的分类性能分析60-62
  • 第七章 总结与展望62-64
  • 7.1 总结62
  • 7.2 展望62-64
  • 参考文献64-66
  • 致谢66-68
  • 攻读学位期间发表的学术论文目录68

【共引文献】

中国期刊全文数据库 前10条

1 徐文权;;基于Symbian OS系统的垃圾短信过滤器设计与实现[J];安庆师范学院学报(自然科学版);2012年02期

2 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期

3 王辉;韩旭;王双成;王淑琴;赵洪帅;王莉;;连续属性朴素贝叶斯分类器的依赖扩展研究[J];东北师大学报(自然科学版);2012年02期

4 高洁;赵俊荣;;基于增量式Bayes的中文网页自动分类技术[J];电脑知识与技术;2006年14期

5 姜立标;马乐;余建伟;刘永花;;多阶段聚类—朴素贝叶斯的异常检测[J];重庆大学学报;2009年08期

6 魏延良;侯立刚;任立军;;垃圾邮件过滤系统的设计[J];辽宁石油化工大学学报;2008年01期

7 刘志明;刘鲁;;面向突发事件的群体情绪监控预警[J];系统工程;2010年07期

8 李凤;高昭良;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[J];国土资源遥感;2011年02期

9 王东;熊世桓;;一种基于特征置换的朴素贝叶斯分类器[J];兰州理工大学学报;2012年04期

10 王东;;面向文本分类的混合特征降维策略[J];贵州师范学院学报;2012年06期

中国重要会议论文全文数据库 前10条

1 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年

2 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,,自动化及先进集成技术大会论文集(一)[C];2007年

3 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

5 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

6 于海旭;王有伟;;基于高精确度的多策略本体映射[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

7 王自强;孙霞;钱旭;;基于信息瓶颈和拉普拉斯SVM的Web文档分类算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

8 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

9 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年

10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年

中国博士学位论文全文数据库 前10条

1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年

2 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年

3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年

4 梁建宁;特征选择与图像匹配[D];复旦大学;2011年

5 杜炅;离散型随机变量的贝叶斯分类方法研究[D];北京大学;2011年

6 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年

7 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年

8 彭宏京;基于稀疏RAM的神经网络及其人脸识别应用研究[D];南京航空航天大学;2002年

9 齐建东;基于数据挖掘的入侵检测方法及系统研究[D];中国农业大学;2003年

10 王双成;面向智能数据处理的图形模式研究[D];吉林大学;2004年

中国硕士学位论文全文数据库 前10条

1 黄美兰;车辆标志自动识别方法研究[D];西安电子科技大学;2011年

2 胡畅;用户行为分析系统设计[D];湖北工业大学;2011年

3 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年

4 张建国;水平集方法特征提取及在医疗图像诊断中的应用[D];太原科技大学;2011年

5 黄鑫檑;西南地区学生辍学预警技术研究[D];上海师范大学;2011年

6 高鸿;文档图像拼接技术研究[D];中南大学;2011年

7 彭登;基于ARM的智能车型识别系统架构与关键技术研究[D];华南理工大学;2011年

8 黄思博;基于计算机视觉的异常驾驶行为检测方法研究[D];华南理工大学;2011年

9 陈思坤;医学图像的自动标注[D];电子科技大学;2011年

10 闫新河;云计算下自主诊断与自我修复研究[D];电子科技大学;2011年



本文编号:661931

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/661931.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27731***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com