基于云平台的知识聚类与关联挖掘机制研究
本文关键词:基于云平台的知识聚类与关联挖掘机制研究
更多相关文章: 数据挖掘 Hadoop 聚类 关联规则 MapReduce
【摘要】:在信息化、大数据时代背景下,各种文本数据正大量地出现在人们的日常生活中,如搜索引擎查询、电商的用户评价、文章摘要等等。人们对互联网信息进行浏览和汇总消耗的精力与时间也越来越多,为了更好提升服务的质量或者提供新的服务,需要对这些短文本进行数据挖掘,给文本定一个语义类别的标示则显得尤为必要。针对文本摘要、参考文献、关键词等多维度数据挖掘,进行整理推荐文本信息,以便提高读者阅读效率与质量。本文整体思想是先对文本进行静态聚类,使得文本信息自动归档,再基于用户动态的浏览过程做关联规则分析,得到动态文本数据频繁项集,最后将频繁项集在聚类结果中分析找到其关联规则,以提高文本信息查询的效率,具有非常重要的应用前景与研究意义。基于云平台和数据挖掘的深入理解,在现有的聚类基础上做出改进,提出文献多维度提取分析策略、孤立点检测与初始中心改进,在云平台上进行MapReduce处理,提高聚类质量和效率。针对用户动态浏览过程,提出了一种基于权值矩阵的FP-Growth关联规则,经过时间因子过滤,得到初始矩阵,进一步计算出权值向量,用于FP-Growth算法改进。同时,解决了动态事务项集部分更新及支持度变化的问题,并依据聚类结果进行类别筛选,在云平台上进行并行处理,改进算法性能和时空间效率,最终得到更有效、更精准的频繁项集,为后续推送研究做基础。最后,在实验平台上验证上述改进算法,其算法性能和效率提高很多。
【关键词】:数据挖掘 Hadoop 聚类 关联规则 MapReduce
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 专用术语注释表8-9
- 第一章 绪论9-14
- 1.1 课题研究背景9-11
- 1.1.1 选题背景9-10
- 1.1.2 选题意义10-11
- 1.2 国内外研究现状11-12
- 1.3 论文研究内容12-13
- 1.4 论文组织结构13-14
- 第二章 云平台和数据挖掘相关背景知识介绍14-29
- 2.1 云平台概述14-15
- 2.2 云平台并行框架MapReduce15-18
- 2.2.1 基本设计思想15-17
- 2.2.2 并行编程抽像模型17-18
- 2.3 文本聚类相关技术18-23
- 2.3.1 文本聚类18-19
- 2.3.2 文本表示模型19-20
- 2.3.3 聚类算法概述20-22
- 2.3.4 聚类质量评价指标22-23
- 2.4 文本关联规则相关技术23-28
- 2.4.1 关联规则定义23-24
- 2.4.2 FP树表示法24-26
- 2.4.3 FP增长算法26-28
- 2.5 本章小结28-29
- 第三章 云平台的知识聚类29-45
- 3.1 数据集采集30-32
- 3.2 文本预处理32-36
- 3.2.1 中文分词32-33
- 3.2.2 停用词过滤33-34
- 3.2.3 多维特征选择34
- 3.2.4 特征值权值计算34-35
- 3.2.5 向量空间模型VSM35-36
- 3.3 改进K-means聚类算法36-39
- 3.3.1 K-means算法思想36-37
- 3.3.2 K-means算法步骤37
- 3.3.3 改进算法37-39
- 3.4 基于云平台算法设计39-44
- 3.4.1 MapReduce模型算法设计39-43
- 3.4.2 算法流程43-44
- 3.5 本章小结44-45
- 第四章 云平台的知识关联45-57
- 4.1 关联规则挖掘的相关工作45-46
- 4.1.1 浏览轨迹日志信息45-46
- 4.1.2 用户浏览模式挖掘46
- 4.2 用户浏览路径关联规则挖掘46-47
- 4.3 基于用户浏览分析的时间因子47-48
- 4.3.1 用户访问页面时间47-48
- 4.3.2 用户浏览描述48
- 4.4 基于矩阵的FP-Growth改进算法48-53
- 4.4.1 矩阵的生成48-50
- 4.4.2 由权值矩阵生成FP-tree50-52
- 4.4.3 数据库动态变化更新52
- 4.4.4 最小支持度变化更新52-53
- 4.4.5 在聚类中筛选53
- 4.5 基于云平台算法设计53-56
- 4.5.1 算法步骤53-54
- 4.5.2 MapReduce模型并行化设计54-56
- 4.6 本章小结56-57
- 第五章 云平台实验结果及性能分析57-66
- 5.1 云平台环境57-60
- 5.1.1 硬件环境57-58
- 5.1.2 软件环境58
- 5.1.3 Hadoop平台58-60
- 5.2 实验及性能分析60-65
- 5.2.1 聚类实验结果60-62
- 5.2.2 聚类的实验评价62-63
- 5.2.3 关联实验数据63
- 5.2.4 关联实验结果分析63-65
- 5.3 本章小结65-66
- 第六章 总结与展望66-68
- 6.1 总结66
- 6.2 展望66-68
- 参考文献68-70
- 附录1 攻读硕士学位期间申请的专利70-71
- 附录2 攻读硕士学位期间参加的科研项目71-72
- 致谢72
【相似文献】
中国期刊全文数据库 前10条
1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
4 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
5 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
6 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
7 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
8 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
9 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
10 安康;基于数据挖掘的商业银行客户关系管理研究[D];兰州交通大学;2014年
,本文编号:732254
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/732254.html