一种基于MapReduce的知识聚类与统计机制
本文关键词:一种基于MapReduce的知识聚类与统计机制,由笔耕文化传播整理发布。
【摘要】:网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于Map Reduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-Co Matrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。
【作者单位】: 南京邮电大学计算机学院;
【关键词】: 数据挖掘 聚类 知识 共现矩阵 统计 Map Reduce
【基金】:国家自然科学基金(61202004;61472192) 教育部科技发展中心网络时代的科技论文快速共享专项研究(2013116) 江苏省高校自然科学研究计划(14KJB520014)~~
【分类号】:TP311.13
【正文快照】: 1引言目前国内外的网络文献知识库系统均聚集了海量的知识文献,为科技工作者提供了快速查阅国内外科技文献,进行高层次知识学习的平台。然而网络文献知识库中海量资源分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航Fund of Higher Education of Jiangsu Provin
【参考文献】
中国期刊全文数据库 前5条
1 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
2 徐森;周天;于化龙;李先锋;;一种基于矩阵低秩近似的聚类集成算法[J];电子学报;2013年06期
3 陈吉荣;乐嘉锦;;SingleMapReduce:单一输出HDFS文件的MapReduce编程模型[J];华南理工大学学报(自然科学版);2014年05期
4 徐森;卢志茂;顾国昌;;使用谱聚类算法解决文本聚类集成问题[J];通信学报;2010年06期
5 朱林;雷景生;毕忠勤;杨杰;;一种基于数据流的软子空间聚类算法[J];软件学报;2013年11期
【共引文献】
中国期刊全文数据库 前10条
1 李建敦;彭俊杰;张武;;云存储中一种基于布局的虚拟磁盘节能调度方法[J];电子学报;2012年11期
2 吴建军;;网络舆情的云计算监测模式分析与实现[J];电讯技术;2013年04期
3 王晓华;;一种新型的Hadoop本地化测试模型[J];赤峰学院学报(自然科学版);2013年19期
4 张琦;卢志茂;徐森;刘晨;隋毅;;基于相似度矩阵的谱聚类集成图像分割[J];传感器与微系统;2013年10期
5 王宁;杨扬;孟坤;陈宇;王磊;季青;;云计算环境下基于用户体验的成本最优存储策略研究[J];电子学报;2014年01期
6 李静滨;杨柳;陈宁江;;基于MapReduce的改进K-Medoids并行算法[J];广西大学学报(自然科学版);2014年02期
7 梅华威;米增强;吴广磊;;基于MapReduce模型的间歇性能源海量数据处理技术[J];电力系统自动化;2014年15期
8 牛琨;张舒博;赵方;;采用联合熵矩阵的子空间聚类算法[J];北京邮电大学学报;2014年03期
9 徐昌荣;王聪颖;袁秀华;;基于并行编程计算模型的索贝尔滤波技术[J];测绘科学;2014年10期
10 胡寅;吕浩勇;;基于VMware Vsphere的云计算实验平台构建[J];电脑知识与技术;2014年32期
中国博士学位论文全文数据库 前10条
1 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
2 张震;基于流量测量的高速IP业务感知技术研究[D];解放军信息工程大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 刘丽敏;选择性聚类融合算法研究[D];中南大学;2013年
5 张建萍;基于计算智能技术的聚类分析研究与应用[D];山东师范大学;2014年
6 穆治亚;红外多目标实时跟踪方法的研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2014年
7 吴迪;基于加权相似度的序列聚类算法研究[D];燕山大学;2014年
8 顾涛;集群MapReduce环境中任务和作业调度若干关键问题的研究[D];南开大学;2014年
9 王宁;云计算环境下数据管理与任务调度优化策略研究[D];北京科技大学;2015年
10 徐飞;面向IaaS云计算的虚拟机负载性能优化与保证机制研究[D];华中科技大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 魏立梅,谢维信;对手抑制式模糊C-均值算法[J];电子学报;2000年07期
2 宁焕生;张瑜;刘芳丽;刘文明;渠慎丰;;中国物联网信息服务系统研究[J];电子学报;2006年S1期
3 廖名学;范植华;;MPI程序同步通信基本模型死锁检测[J];电子学报;2008年02期
4 宁焕生;徐群玉;;全球物联网发展及中国物联网建设若干思考[J];电子学报;2010年11期
5 ;Spectral clustering based on matrix perturbation theory[J];Science in China(Series F:Information Sciences);2007年01期
6 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
7 罗会兰;孔繁胜;李一啸;;聚类集成中的差异性度量研究[J];计算机学报;2007年08期
8 王珊;王会举;覃雄派;周p,
本文编号:480707
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/480707.html