当前位置:主页 > 管理论文 > 移动网络论文 >

基于邻接特征的网页主题传播算法

发布时间:2018-11-28 13:38
【摘要】:本文围绕邻接特征的选择、表示和使用进行相关研究,提出了基于邻接特征的网页主题传播算法。该算法基于网页超链接构建的有向图模型,针对网页的主题局部性特点,实现了邻接网页的主题传播,并最终得到各网页的主题概率分布。本文的主要工作如下:1)利用网络爬虫对互联网数据进行采集,经网页正文提取、网页去重、超链接分析等数据预处理后,构建基于网页超链接的有向图;2)利用潜在狄利克雷分布计算超链接有向图中网页节点的初始主题概率分布。所得主题概率分布作为网页节点的特征表示,一方面可以起到降维作用;另一方面可以用来衡量网页间的语义相似度;3)针对邻接特征的表示和引入问题,本文提出了虚拟节点和虚拟链接的概念。虚拟节点由目标页面的双亲页面转化而来,并包含所有指向目标网页超链接的扩展锚文本信息。虚拟链接可以将目标网页的其他邻接特征以人为链接的形式引入到模型当中。通过虚拟节点和虚拟连接,本文实现了网页邻接特征的有效表示和引入;4)针对网页主题局部性特点,本文提出了基于邻接特征的网页主题传播算法,该算法基于网页超链接构建的有向图模型,实现了邻接网页的主题传播,并最终生成各网页的主题概率分布。实验表明,在困惑度指标下,相较于网页的初始主题概率分布,基于邻接特征的网页主题传播算法对于网页主题概率分布的计算有明显提升。
[Abstract]:This paper focuses on the selection, representation and use of adjacent features, and proposes a topic propagation algorithm based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks of web pages. According to the local characteristics of web pages, the topic propagation of adjacent web pages is realized, and the topic probability distribution of each web page is obtained. The main work of this paper is as follows: 1) the web crawler is used to collect the Internet data. After the data preprocessing, such as page text extraction, web page removal and hyperlink analysis, a directed graph based on the web page hyperlink is constructed. 2) using the potential Delikley distribution to calculate the initial topic probability distribution of the webpage nodes in hyperlink digraphs. As the feature representation of web nodes, the topic probability distribution can reduce the dimension, on the other hand, it can be used to measure the semantic similarity between web pages. 3) the concept of virtual node and virtual link is proposed in this paper. The virtual node is transformed from the parent page of the target page and contains all extended anchor text information pointing to the target page hyperlink. Virtual link can introduce other adjacent features of the target web page into the model. Through virtual nodes and virtual connections, this paper realizes the effective representation and introduction of the adjacent features of web pages. 4) according to the local characteristics of web pages, this paper proposes an algorithm of topic propagation based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks, and realizes the topic propagation of adjacent web pages. Finally, the topic probability distribution of each web page is generated. The experimental results show that, compared with the initial topic probability distribution of the web pages, the algorithm based on the adjacent features can significantly improve the calculation of the probability distribution of the page topics under the confusion index.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1

【相似文献】

相关期刊论文 前10条

1 朱秀英,姜跃胜;如何在一张图片中创建多个超链接[J];计算机时代;2000年12期

2 ;改变超链接的样式[J];网络与信息;2004年03期

3 陈跃安;;浅议超链接技术在立体教材中的重要意义及方法[J];中国科教创新导刊;2008年14期

4 ;去掉超链接的下划线[J];计算机与网络;2001年Z1期

5 吴国柱,李东洋,曾利玲;网络超链接分析初探[J];图书情报工作;2002年11期

6 杨连君;消除超链接的下划线[J];网络与信息;2003年04期

7 史艳丽;网络学科资源导航库中的超链接研究[J];情报科学;2004年08期

8 于国富;;超链接以案说法[J];中国计算机用户;2006年21期

9 刘东风;;浅谈超链接在出版中的运用[J];出版发行研究;2012年12期

10 袁军辉;轻松取消"超链接"[J];少年电脑世界;2005年02期

相关会议论文 前2条

1 崔蓓;;基于超链接的地图场景的设计与应用[A];2013年度江苏省测绘学会年会论文集[C];2013年

2 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年

相关重要报纸文章 前10条

1 Softviva;简单的超链接变色[N];电脑报;2002年

2 静悄悄;让一张图片包含多个超链接[N];电脑报;2003年

3 ;在论坛中自动显示超链接[N];计算机世界;2006年

4 贵州 保戬;妙用超链接管理文档[N];中国电脑教育报;2004年

5 福建 上海正午;取消自作聪明的超链接[N];电脑报;2003年

6 车立新;增强课件生命力[N];中国电脑教育报;2002年

7 盛璐;在一张图片上也能制作多个超级链接[N];江苏经济报;2003年

8 静悄悄;在一张图片上制作多个超级链接[N];中国电脑教育报;2003年

9 严瑞;在一张图片上也能制作多个超级链接[N];江苏经济报;2003年

10 安徽 陈秀峰;实战WPS飓风(三)[N];电脑报;2004年

相关博士学位论文 前1条

1 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年

相关硕士学位论文 前10条

1 李锐;网络超链接与意识流的耦合及其数字化外显[D];哈尔滨工业大学;2009年

2 李成;个性化需要视角下的超链接研究[D];湖南师范大学;2016年

3 韩建军;基于邻接特征的网页主题传播算法[D];南京大学;2017年

4 宋钧;对世界著名公司主页中超链接部分的语言学分析[D];对外经济贸易大学;2000年

5 朱敬华;数字图书馆中查询结果处理和参考文献超链接方法的研究[D];黑龙江大学;2002年

6 冯雨;显性、隐性超链接对大学生英语阅读过程及附带性词汇习得影响的对比研究[D];重庆大学;2014年

7 梁燕;超链接的知识产权问题探析[D];四川大学;2004年

8 周婷婷;超链接分析方法及其测度指标研究[D];东北师范大学;2008年

9 张涛;Web教学资源采集中超链接可采集度评价研究[D];南京师范大学;2013年

10 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年



本文编号:2362977

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2362977.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c7fc6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com