海量数据的MapReduce相似度检测
本文选题:相似度 + MapReduce ; 参考:《实验室研究与探索》2014年09期
【摘要】:针对当前海量数据的相似重复问题,提出了MapReduce下通过SimHash算法检测相似文档的方法:即首先将存储在分布式文件系统的海量文档集进行分类,然后进行特征提取,由SimHash算法生成SimHash指纹和生成Sequence File;最后,计算相似度产生检测结果;通过实验测试可知,提出的检测方法和设计的相似度算法能很好适应海量数据相似检测,并能有效地提高工作效率。
[Abstract]:In order to solve the problem of similarity repetition of current mass data, a method of detecting similar documents by SimHash algorithm under MapReduce is proposed: firstly, the massive document set stored in distributed file system is classified, and then the feature extraction is carried out. SimHash algorithm is used to generate SimHash fingerprint and Sequence File. finally, the result of similarity detection is calculated. Through experimental test, we know that the proposed detection method and the designed similarity algorithm can adapt to the similarity detection of mass data. And can effectively improve the working efficiency.
【作者单位】: 河南理工大学测绘与国土信息工程学院;
【基金】:河南省科技攻关计划项目(132102210123) 河南省高等学校矿山信息化重点学科开放实验室项目 河南理工大学博士基金(B2009-21)
【分类号】:TP333
【参考文献】
相关期刊论文 前9条
1 李星毅;包从剑;施化吉;;数据仓库中的相似重复记录检测方法[J];电子科技大学学报;2007年06期
2 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
3 韩京宇;徐立臻;董逸生;;一种大数据量的相似记录检测方法[J];计算机研究与发展;2005年12期
4 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
5 程国达,苏杭丽;一种检测汉语相似重复记录的有效方法[J];计算机应用;2005年06期
6 朱恒民;王宁生;;一种改进的相似重复记录检测方法[J];控制与决策;2006年07期
7 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
8 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
9 张祖平;徐昕;龙军;袁鑫攀;;文本相似性度量中参数相关性与优化配置研究[J];小型微型计算机系统;2011年05期
【共引文献】
相关期刊论文 前10条
1 魏东泽;来学嘉;;一种安全的高可靠性P2P云存储备份模型初探参考文献[J];信息安全与技术;2011年09期
2 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
3 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
4 徐小龙;程春玲;熊婧夷;王汝传;;一种基于移动Agent的云端计算任务安全分割与分配算法[J];北京理工大学学报;2011年08期
5 李建卓;;云计算及其发展综述[J];宝鸡文理学院学报(自然科学版);2010年03期
6 董晓霞;吕廷杰;;云计算研究综述及未来发展[J];北京邮电大学学报(社会科学版);2010年05期
7 邓仲华;朱秀芹;;云计算环境下的隐私权保护初探[J];图书与情报;2010年04期
8 马晓亭;陈臣;;基于成本收益分析的云计算环境下数字图书馆建设研究[J];图书与情报;2011年06期
9 朱德新;宋雅娟;;海量数据分析及处理算法实现[J];长春大学学报;2011年08期
10 李鑫;李军;丰继林;高方平;李忠;;面向相似重复记录检测的特征优选方法[J];传感器与微系统;2011年02期
相关会议论文 前10条
1 万丹丹;王宏;;云计算在编辑工作中的应用探讨[A];学术期刊编辑学理论与实践[C];2010年
2 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 张白兰;杨向红;李家龙;刘伟;林创燕;邱正能;;物联网综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 任伟;叶敏;刘宇靓;;云安全的信任管理研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 周轩;黄璞;;基于云计算的OMS平台移动业务测试系统[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 唐玲;;云计算及其安全问题的研究[A];Proceedings of 2011 National Teaching Seminar on Cryptography and Information Security(NTS-CIS 2011) Vol.1[C];2011年
8 丁辉;赵炜妹;;基于云计算应用一级部署的研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
9 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 彭成;王树鹏;贾志凯;;基于纠删码的数据消冗存储系统可靠性增强研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
相关博士学位论文 前10条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
2 王铁军;非结构化对等网络资源定位技术研究[D];电子科技大学;2010年
3 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
4 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
5 李铮;多媒体云计算平台关键技术研究[D];中国科学技术大学;2011年
6 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
7 林云;汽车物流服务供应链体系构建与应用研究[D];重庆大学;2011年
8 朱智强;混合云服务安全若干理论与关键技术研究[D];武汉大学;2011年
9 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
10 葛显龙;面向云配送模式的车辆调度问题及算法研究[D];重庆大学;2011年
相关硕士学位论文 前10条
1 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
2 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
3 姜健;云计算在企业物资供应系统的应用研究[D];辽宁工程技术大学;2009年
4 薛师;云计算与网格计算的比较研究[D];河南理工大学;2010年
5 刘震宇;基于VMware vSphere4.0的PC服务器资源池构建[D];大连海事大学;2010年
6 梁文迪;一体化资产管理系统中财务模块的设计与实现[D];华南理工大学;2010年
7 胡清;基于云计算的券商网络营销服务平台研究与设计[D];南昌大学;2010年
8 李婵;基于云计算的智能手机数据挖掘平台的架构和实现[D];武汉理工大学;2010年
9 贺鹏;云计算的开发云的研究与实现[D];电子科技大学;2011年
10 丁跃进;网关型病毒防火墙的设计与实现[D];电子科技大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 宁焕生;张瑜;刘芳丽;刘文明;渠慎丰;;中国物联网信息服务系统研究[J];电子学报;2006年S1期
2 廖名学;范植华;;MPI程序同步通信基本模型死锁检测[J];电子学报;2008年02期
3 宁焕生;徐群玉;;全球物联网发展及中国物联网建设若干思考[J];电子学报;2010年11期
4 张永;迟忠先;;位置编码在数据仓库ETL中的应用[J];计算机工程;2007年01期
5 邱越峰,田增平,季文,
本文编号:1962816
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1962816.html