基于邻接特征的网页主题传播算法
[Abstract]:This paper focuses on the selection, representation and use of adjacent features, and proposes a topic propagation algorithm based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks of web pages. According to the local characteristics of web pages, the topic propagation of adjacent web pages is realized, and the topic probability distribution of each web page is obtained. The main work of this paper is as follows: 1) the web crawler is used to collect the Internet data. After the data preprocessing, such as page text extraction, web page removal and hyperlink analysis, a directed graph based on the web page hyperlink is constructed. 2) using the potential Delikley distribution to calculate the initial topic probability distribution of the webpage nodes in hyperlink digraphs. As the feature representation of web nodes, the topic probability distribution can reduce the dimension, on the other hand, it can be used to measure the semantic similarity between web pages. 3) the concept of virtual node and virtual link is proposed in this paper. The virtual node is transformed from the parent page of the target page and contains all extended anchor text information pointing to the target page hyperlink. Virtual link can introduce other adjacent features of the target web page into the model. Through virtual nodes and virtual connections, this paper realizes the effective representation and introduction of the adjacent features of web pages. 4) according to the local characteristics of web pages, this paper proposes an algorithm of topic propagation based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks, and realizes the topic propagation of adjacent web pages. Finally, the topic probability distribution of each web page is generated. The experimental results show that, compared with the initial topic probability distribution of the web pages, the algorithm based on the adjacent features can significantly improve the calculation of the probability distribution of the page topics under the confusion index.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 朱秀英,姜跃胜;如何在一张图片中创建多个超链接[J];计算机时代;2000年12期
2 ;改变超链接的样式[J];网络与信息;2004年03期
3 陈跃安;;浅议超链接技术在立体教材中的重要意义及方法[J];中国科教创新导刊;2008年14期
4 ;去掉超链接的下划线[J];计算机与网络;2001年Z1期
5 吴国柱,李东洋,曾利玲;网络超链接分析初探[J];图书情报工作;2002年11期
6 杨连君;消除超链接的下划线[J];网络与信息;2003年04期
7 史艳丽;网络学科资源导航库中的超链接研究[J];情报科学;2004年08期
8 于国富;;超链接以案说法[J];中国计算机用户;2006年21期
9 刘东风;;浅谈超链接在出版中的运用[J];出版发行研究;2012年12期
10 袁军辉;轻松取消"超链接"[J];少年电脑世界;2005年02期
相关会议论文 前2条
1 崔蓓;;基于超链接的地图场景的设计与应用[A];2013年度江苏省测绘学会年会论文集[C];2013年
2 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
相关重要报纸文章 前10条
1 Softviva;简单的超链接变色[N];电脑报;2002年
2 静悄悄;让一张图片包含多个超链接[N];电脑报;2003年
3 ;在论坛中自动显示超链接[N];计算机世界;2006年
4 贵州 保戬;妙用超链接管理文档[N];中国电脑教育报;2004年
5 福建 上海正午;取消自作聪明的超链接[N];电脑报;2003年
6 车立新;增强课件生命力[N];中国电脑教育报;2002年
7 盛璐;在一张图片上也能制作多个超级链接[N];江苏经济报;2003年
8 静悄悄;在一张图片上制作多个超级链接[N];中国电脑教育报;2003年
9 严瑞;在一张图片上也能制作多个超级链接[N];江苏经济报;2003年
10 安徽 陈秀峰;实战WPS飓风(三)[N];电脑报;2004年
相关博士学位论文 前1条
1 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
相关硕士学位论文 前10条
1 李锐;网络超链接与意识流的耦合及其数字化外显[D];哈尔滨工业大学;2009年
2 李成;个性化需要视角下的超链接研究[D];湖南师范大学;2016年
3 韩建军;基于邻接特征的网页主题传播算法[D];南京大学;2017年
4 宋钧;对世界著名公司主页中超链接部分的语言学分析[D];对外经济贸易大学;2000年
5 朱敬华;数字图书馆中查询结果处理和参考文献超链接方法的研究[D];黑龙江大学;2002年
6 冯雨;显性、隐性超链接对大学生英语阅读过程及附带性词汇习得影响的对比研究[D];重庆大学;2014年
7 梁燕;超链接的知识产权问题探析[D];四川大学;2004年
8 周婷婷;超链接分析方法及其测度指标研究[D];东北师范大学;2008年
9 张涛;Web教学资源采集中超链接可采集度评价研究[D];南京师范大学;2013年
10 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年
,本文编号:2362977
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2362977.html