基于云平台的知识专家图谱的研究
本文关键词:基于云平台的知识专家图谱的研究,由笔耕文化传播整理发布。
【摘要】:随着科学的发展和工程水平的提高,互联网数据量也在增长,传统单机处理方式已经不能满足,对于网站整体运行情况的分析有了更多的分析角度和更精确的分析方法,本选题的研究目的即从一种更优的视角出发。大数据时代背景下,各种文本数据正大量地出现在人们的日常生活中,本文针对文本摘要、参考文献、关键词等多维度数据挖掘,进行整理推荐文本信息,以便提高读者阅读效率与质量。本文整体思想是先对文本进行静态聚类,使得文本信息自动归档,再基于用户动态的浏览过程做关联规则分析,得到动态文本数据频繁项集,最后将频繁项集在聚类结果中分析找到其关联规则,以提高文本信息查询的效率,具有非常重要的应用前景与研究意义。引用Hadoop实验环境平台,在现有的聚类算法基础上做出改进,提出了一种基于权值矩阵的FP-Growth关联规则,通过改进的关联算法对文献作者信息挖掘过程的处理时间及隐含信息的挖掘程度等指标进行实验,改进算法性能和时空间效率,最终得到更有效、更精准的频繁项集,以及通过改进了的K-means聚类算法,找出相互关联的文献作者,获得参考文献作者的知识专家图谱。
【关键词】:数据挖掘 云平台 聚类 关联规则 大数据
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP391.1
【目录】:
- 摘要4-5
- abstract5-8
- 专用术语注释表8-9
- 第一章 绪论9-15
- 1.1 课题研究背景9-11
- 1.1.1 选题背景9-10
- 1.1.2 选题意义10-11
- 1.2 国内外研究现状11-12
- 1.2.1 数据挖掘11
- 1.2.2 知识专家图谱11-12
- 1.3 论文研究内容12-13
- 1.4 论文组织结构13-15
- 第二章 云平台和数据挖掘相关背景知识介绍15-30
- 2.1 MapReduce相关技术介绍15-17
- 2.1.1 MapReduce技术的提出15
- 2.1.2 MapReduce编程模型15-17
- 2.2 与其他并行计算技术的比较17-19
- 2.2.1 与中间件技术的比较17
- 2.2.2 与网格计算模型的比较17-18
- 2.2.3 与P2P计算模型的比较18
- 2.2.4 与Volunteer计算模型的比较18-19
- 2.3 文本聚类相关技术19-23
- 2.3.1 文本聚类19
- 2.3.2 文本表现模型19-20
- 2.3.3 聚类算法概述20-22
- 2.3.4 聚类质量评价指标22-23
- 2.4 文本关联规则相关技术23-29
- 2.4.1 关联规则定义23-24
- 2.4.2 频繁项集挖掘算法简介24-25
- 2.4.3 FP树表示法25-27
- 2.4.4 FP增长算法27-29
- 2.5 本章小结29-30
- 第三章 云平台的知识聚类30-47
- 3.1 数据集采集31-33
- 3.2 文本预处理33-37
- 3.2.1 中文分词33-34
- 3.2.2 停用词过滤34-35
- 3.2.3 多维特征选择35
- 3.2.4 特征值权值计算35-36
- 3.2.5 向量空间模型VSM36-37
- 3.3 改进K-means聚类算法37-40
- 3.3.1 K-means算法思想37-38
- 3.3.2 K-means算法步骤38
- 3.3.3 改进算法38-40
- 3.4 基于云平台算法设计40-45
- 3.4.1 MapReduce模型算法设计40-44
- 3.4.2 算法流程44-45
- 3.5 本章小结45-47
- 第四章 云平台的知识关联47-59
- 4.1 关联规则挖掘的相关工作47-48
- 4.1.1 浏览轨迹日志信息47-48
- 4.1.2 知识专家关联挖掘48
- 4.2 知识专家关联规则挖掘48-49
- 4.3 基于用户浏览分析的时间因子49-50
- 4.3.1 用户访问页面时间49-50
- 4.3.2 用户浏览描述50
- 4.4 基于矩阵的FP-Growth改进算法50-55
- 4.4.1 矩阵的生成51-52
- 4.4.2 由权值矩阵生成FP-tree52-54
- 4.4.3 数据库动态变化更新54
- 4.4.4 最小支持度变化更新54-55
- 4.4.5 在聚类中筛选55
- 4.5 基于云平台算法设计55-58
- 4.5.1 算法步骤55
- 4.5.2 MapReduce模型并行化设计55-58
- 4.6 本章小结58-59
- 第五章 云平台实验结果及性能分析59-68
- 5.1 云平台环境59-62
- 5.1.1 硬件环境59-60
- 5.1.2 软件环境60
- 5.1.3 Hadoop平台60-62
- 5.2 实验及性能分析62-67
- 5.2.1 聚类实验结果62-64
- 5.2.2 聚类的实验评价64-65
- 5.2.3 关联实验结果与分析65-67
- 5.3 知识专家图谱推送67
- 5.4 本章小结67-68
- 第六章 总结与展望68-70
- 6.1 总结68
- 6.2 展望68-70
- 参考文献70-72
- 致谢72
【相似文献】
中国期刊全文数据库 前10条
1 肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期
2 蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期
3 胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期
4 胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期
5 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期
6 李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期
7 陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期
8 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
9 宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期
10 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
中国重要会议论文全文数据库 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 王立俊;基于多重最小支持度的氋效用频繁项集挖掘算法研究[D];广西大学;2015年
2 陈国俊;基于Hadoop的云存储系统的研究与应用[D];电子科技大学;2014年
3 尹艳红;基于Apriori算法的增量式关联规则控制研究[D];大连理工大学;2015年
4 田苗凤;大数据背景下并行动态关联规则挖掘研究[D];兰州交通大学;2015年
5 李雪迪;基于本体论的精细化数据分析[D];南京邮电大学;2015年
6 许静文;基于模糊等价类的频繁项集精简表示算法研究[D];合肥工业大学;2015年
7 王大伟;大数据环境下的关联规则提取算法研究[D];辽宁工业大学;2016年
8 廖友金;基于有向图的关联规则挖掘研究与改进[D];东南大学;2015年
9 王苏琦;基于Hadoop的不确定频繁项集并行挖掘方法研究[D];南京大学;2013年
10 韩宏莹;并行数据挖掘技术在电信网管告警中的应用研究[D];长春工业大学;2016年
本文关键词:基于云平台的知识专家图谱的研究,,由笔耕文化传播整理发布。
本文编号:433960
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/433960.html