当前位置:主页 > 管理论文 > 移动网络论文 >

FPC:大规模网页的快速增量聚类

发布时间:2017-12-10 11:02

  本文关键词:FPC:大规模网页的快速增量聚类


  更多相关文章: DOM树分层向量 网页簇中心 局部敏感哈希 快速增量聚类


【摘要】:面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
【作者单位】: 中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室;中国科学院大学;中国信息安全评测中心;
【基金】:国家973计划(2012CB316303,2013CB329602) 国家863计划(2014AA015204) 国家自然科学基金(61232010,61425016,61572473,61572467)
【分类号】:TP391.1;TP393.092
【正文快照】: 这种方法对高层节点很敏感。文献[4]使用自顶向1 引言下的树编辑距离来计算网页的相似度,这种方法对高层节点也很敏感,高层节点不匹配,则相似度非Web抽取是网络数据挖掘中的重要应用。针常小。对海量网页的抽取,可以把结构相似的网页自动聚传统的网页聚类使用点代表的聚类方

【相似文献】

中国期刊全文数据库 前10条

1 ;FPC和激光加工工艺[J];印制电路信息;2006年12期

2 林均秀;陈国辉;王艳艳;何为;;超声波在FPC黑孔化工艺中的应用研究[J];印制电路信息;2010年09期

3 罗露;胡跃明;;基于机器视觉的FPC嵌入式检测系统[J];计算机测量与控制;2011年02期

4 刘萍;FPC在计算机硬驱磁头的应用[J];印制电路信息;2001年06期

5 蔡积庆;;FPC用压延铜箔[J];印制电路信息;2008年05期

6 何繁;;FPC用铜箔的表面处理技术[J];覆铜板资讯;2013年03期

7 黄杰贤;李迪;黄志平;杨冬涛;;FPC焊盘表面缺陷检测研究[J];激光与红外;2014年06期

8 唐勇;胡华平;罗宇;;高效报文捕获引擎FPC的研究与实现[J];计算机工程与科学;2006年05期

9 祝大同;挠性PCB用基板材料的新发展(4)——FPC用压延铜箔的新成果[J];印制电路信息;2005年05期

10 吴卫钟;;关于如何控制FPC微连点分板后毛刺大小的研究试验[J];印制电路信息;2011年09期

中国重要会议论文全文数据库 前3条

1 ;降低主FPC不良发生率——厦门TDK有限公司 新力圈[A];2003年度电子工业优秀质量管理小组成果质量信得过班组经验专集[C];2003年

2 刘萍;;FPC在数码相机中的研究与应用[A];全国第六届SMT/SMD学术研讨会论文集[C];2001年

3 杨根林;;如何提高FPT器件在FPC上之组装良率及可靠性[A];2011中国电子制造与封装技术年会论文集[C];2011年

中国硕士学位论文全文数据库 前2条

1 吴学娟;基于FPC的变频调速恒压供水系统的研究[D];安徽工程大学;2012年

2 王学军;用于多功能柔性功率调节器(FPC)的三相电压源变换器(VSC)的研究[D];华中科技大学;2006年



本文编号:1274195

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1274195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户01ba2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com