链路结构的网页聚类研究
发布时间:2017-09-17 20:37
本文关键词:链路结构的网页聚类研究
【摘要】:网页的链接关系反映了网页之间联系的紧密程度,这种紧密关系是网页聚类的重要依据.首先通过对网页链路结构的特点分析,提出网页节点的基本集、扩展集、半径、邻域、密度和路径树等概念;然后,利用共享入度出度以及网页之间的相异度来衡量其距离,并结合扩展集中的链接信息设计了网页相似度的计算模型;最后,利用密度分布对网页进行聚类.实验结果表明,本算法具有较好的聚类效果.
【作者单位】: 中南财经政法大学信息与安全工程学院;
【关键词】: Web挖掘 链接分析 网页聚类
【基金】:国家自然科学基金项目(71203164)资助 国家社会科学基金项目(14BXW033)资助
【分类号】:TP393.092;TP391.1
【正文快照】: 1引言随着网页数量的快速增长,人们迫切地需要对网页进行聚类划分,从而更精确地检索到目标网页.通过文本挖掘的网页聚类是传统的方法,其聚类结果强烈依赖于网页内容的提取,而由于多媒体的丰富,图片、视频、音频等非结构化数据在页面中的比重越来越大,使基于文本分析的网页聚类,
本文编号:871208
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/871208.html