CCDet:一种高效的大规模中文重复网页检测方法
本文关键词: CCDet算法 重复网页检测 中文句号特征 索引剪切 出处:《计算机研究与发展》2013年S2期 论文类型:期刊论文
【摘要】:重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性.
[Abstract]:Duplicate document detection is a very important problem in the field of information retrieval. Due to the complexity of web page structure and content, the existing methods do not achieve good accuracy in page retrieval. And only a small amount of work is used to deal with the problem of containing relational page detection; at the same time, because of the large number of pages, The parallelization algorithm of large scale data should be taken into account in the detection of duplicate pages. A large scale Chinese page detection method based on period feature is proposed in this paper. CCDet.CCDet adopts a Chinese period feature to complete duplicate documents. Similarity comparison method, Compared with the existing algorithms, the CCDet greatly improves the accuracy and efficiency of the detection of web pages with repeatable relationship and contains relation pages. At the same time, in order to adapt to the reprocessing of large scale news pages, CCDet improves the accuracy of detecting web pages with duplicate relationship and contains relational pages. The parallel CCDet algorithm is implemented by using the MapReduce programming framework, which makes it possible to detect repeated web pages in parallel. The experimental results show that the parallel CCDet algorithm has good detection effect and computational performance, and has good scalability.
【作者单位】: 南京大学计算机科学与技术系;
【基金】:国家自然科学基金项目(61072152) 江苏省工业支撑计划基金项目(BE2011172)
【分类号】:TP393.092;TP391.3
【共引文献】
相关期刊论文 前10条
1 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
2 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
3 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
4 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
5 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期
6 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
7 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
8 孟令玺;李洪亮;;基于CA-PSO算法的云计算资源调度策略[J];计算机仿真;2013年10期
9 夏秀峰;赵小磊;孔庆云;;MBE与大数据给PDM带来的思考[J];制造业自动化;2013年20期
10 张宇;刘新;叶德建;;基于分布式流媒体计算框架的转码系统的设计与实现[J];计算机应用与软件;2013年09期
相关博士学位论文 前10条
1 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年
2 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
3 程祥;高效可靠的虚拟网络映射技术研究[D];北京邮电大学;2013年
4 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
5 袁鑫攀;基于minwise哈希的文档复制检测的研究及应用[D];中南大学;2012年
6 卢风顺;面向CPU/GPU异构体系结构的并行计算关键技术研究[D];国防科学技术大学;2012年
7 孙鹏;动车组维修物联网及其关键技术研究[D];中国铁道科学研究院;2013年
8 肖奎;维基百科大数据的知识挖掘与管理方法研究[D];武汉大学;2013年
9 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
10 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年
相关硕士学位论文 前10条
1 李昌恒;分布式搜索的结果融合方法研究与实现[D];华南理工大学;2013年
2 徐凯;社交网络数据采集及传播路径分析[D];江西农业大学;2013年
3 张科;基于《知网》义原空间的文本相似度计算研究与实现[D];重庆大学;2013年
4 陈贞;HDFS环境下的访问控制技术研究[D];重庆大学;2013年
5 张丹;HDFS中文件存储优化的相关技术研究[D];南京师范大学;2013年
6 潘吴斌;基于云计算的并行K-means气象数据挖掘研究与应用[D];南京信息工程大学;2013年
7 赵洪昌;云计算下的关联分析和模糊聚类研究[D];南京信息工程大学;2013年
8 汪洋;通信网云计算平台资源调度策略与算法研究[D];南昌大学;2013年
9 吕天然;基于MapReduce的可视化工作流遥感并行处理平台及关键技术研究[D];河南大学;2013年
10 但光祥;云计算环境下混合加密算法研究与实现[D];重庆大学;2013年
【相似文献】
相关期刊论文 前10条
1 沈陈华;平面上点与多边形包含关系的Q算法[J];扬州大学学报(自然科学版);1999年04期
2 王慧艺,文和平;快速判别点与三角形的包含关系[J];安徽工学院学报;1996年02期
3 徐小萍;;集合MU的某些子类间的包含关系[J];襄樊学院学报;2008年08期
4 彭认灿;陈子澎;刘国辉;;快速确定多边形与多边形包含关系的一种新方法[J];测绘通报;2006年05期
5 杨武;唐蓉;任丽芸;;重复网页检测算法综述[J];电脑知识与技术;2010年22期
6 吴志光;二元无穷可微函数类之间包含关系的充要条件[J];吉林大学学报(信息科学版);1986年01期
7 顾珊;吉根林;;一种基于包含关系的空间面对象条件离群检测算法[J];山东大学学报(工学版);2011年02期
8 施化吉;丁云磊;;基于数据立方体的高效关联规则挖掘算法[J];计算机工程与设计;2009年02期
9 王卫辰;邢邦圣;;快速成形件与CAD模型间包含关系的一种通用实现方法[J];徐州师范大学学报(自然科学版);2010年02期
10 傅清祥,王晓东,李勇;求解简单多边形间包含关系的扫描线算法[J];计算机辅助设计与图形学学报;1997年02期
相关会议论文 前10条
1 方进明;;半连续广义序同态的性质[A];模糊集理论与模糊应用专辑——中国系统工程学会模糊数学与模糊系统委员会第十届年会论文选集[C];2000年
2 孙茂圣;李斌;;一种分布式本体融合及冗语关系约简算法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
3 何先友;晏赛君;;场所包含关系对fan效应消除的影响[A];第十一届全国心理学学术会议论文摘要集[C];2007年
4 乔朝飞;陈军;赵仁亮;;基于Voronoi内邻集的等高线树生成法[A];《大地测量与地球动力学进展》论文集[C];2004年
5 张家龙;;形式逻辑要现代化[A];逻辑学文集[C];1978年
6 郭永良;;从属种关系看划分、限制与定义[A];2000年逻辑研究专辑[C];2000年
7 马佩;;论直言判断的种类[A];逻辑学文集[C];1978年
8 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 张美娜;亓超;迟呈英;战学刚;;文本篇章结构的自动标引[A];第三届学生计算语言学研讨会论文集[C];2006年
10 于惠棠;;形式逻辑教学中的两个问题[A];全国逻辑讨论会论文选集[C];1979年
相关重要报纸文章 前10条
1 赖大庆;受贿人“合理”支出应否扣除[N];检察日报;2005年
2 孟学;3G网管的基础:TMN网络管理体系结构[N];通信产业报;2003年
3 廖一平 广西大学法学院副教授 莫志强;法条竞合及其处罚原则[N];法治快报;2004年
4 张艳琳;小心你的邮件安全[N];中国电脑教育报;2004年
5 本报记者 郭高中 北京大学学生工作部副部长 马正勇 北京师范大学心理系 乔志宏;贫困的根源不在学生身上[N];华夏时报;2002年
6 高岚;中国PKI建设烽火点燃[N];中国计算机报;2003年
7 徐继业;借网球赛IBM试水关系营销[N];21世纪经济报道;2004年
8 向春玲;从社会系统的角度看“和谐社会”[N];学习时报;2005年
9 肖立明;从“发展观”到“荣辱观”[N];白银日报;2006年
10 张超 何雅芹 作者单位:北华航天工业学院保卫处、廊坊血站;建设和谐社会需加强思想政治工作[N];廊坊日报;2007年
相关博士学位论文 前10条
1 叶晓峰;函数空间及算子的有界性[D];浙江大学;2006年
2 杨喜陶;时滞微分方程的概周期解[D];北京师范大学;2006年
3 王中余;阿伦·福特音级集合理论研究[D];上海音乐学院;2008年
4 马露杰;三维CAD模型形状结构分析方法[D];华中科技大学;2009年
5 熊瑜;具有跟踪性质码的研究[D];上海交通大学;2007年
6 方流;描述逻辑推理优化技术研究[D];浙江大学;2008年
7 孟凡超;模型驱动的构件化企业应用软件开发方法[D];哈尔滨工业大学;2008年
8 邓歆;光传送网告警相关性分析及其应用的研究[D];北京邮电大学;2008年
9 周平;基于格蕴涵代数的格值逻辑中的近似推理研究[D];西南交通大学;2007年
10 曾建彬;下义关系的认知语义研究[D];复旦大学;2007年
相关硕士学位论文 前10条
1 曾婷;某些解析函数族的包含关系与系数估计[D];长沙理工大学;2008年
2 曾剑锋;区间结构的逼近和合成[D];江西师范大学;2005年
3 刘文静;两个投影乘积算子的刻画及保持值域包含关系的映射[D];陕西师范大学;2013年
4 周保良;高中生对实无穷的理解[D];华东师范大学;2006年
5 高羽,
本文编号:1520566
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1520566.html