Web挖掘中的链接分析与话题检测研究
发布时间:2018-07-03 15:43
本文选题:Web信息检索 + Web挖掘 ; 参考:《大连理工大学》2012年博士论文
【摘要】:Web已经成为人类存储和共享信息的主要平台。对于这个庞大的信息源,如何检索有用的信息是个十分具有挑战性的课题。由于Web的特性,如大量的非结构或半结构化的文档以及多媒体信息、参差不齐的网页质量等,使传统的用于结构化数据的信息检索技术很难有效地应用。Web上的信息检索已经形成一门独立学科,研究内容非常广泛。 本文针对Web上的信息检索的研究热点,在以下几个方面展开深入研究。 首先,本文研究了现代搜索引擎的重要组成部分——网页排名算法。针对现在主流的主题相关网页排名算法HITS的不足,本文提出了基于引力模型的排名算法G-HITS。该模型将网页看作质点,将涉及网页排名的各种因素描述成网页的质量或距离,用万有引力描述网页的关系,从而克服纯粹基于链接的排名算法的不足。 其次,针对日益猖獗的网页排名作弊现象,本文研究了反基于链接的网页排名作弊问题。本文首先分析了著名的TrustRank算法和Anti-TrustRank算法只能传播信任或非信任的问题,提出了同时传播信任和非信任的综合框架。该算法克服了TrustRank算法和Anti-TrustRank算法的不足,提高了反网页排名作弊的效率。 第三,本文研究了Web上社区识别问题。社区是Web上的重要现象,反映了Web上话题的分布。社区识别可以通过挖掘Web图的稠密子图发现这种话题分布。现有社区识别算法都是以网页为基本单位的。但每个网页都包含多个主题。本文提出了基于网页分块的社区识别算法,解决了网页的多主题问题,使社区识别的精确度得到明显提高。 最后,本文研究了Web上的话题检测问题。为了更有效地检测话题,本文首先研究了谱聚类算法,对现有谱聚类算法进行了改进,并用改进的谱聚类算法进行话题检测。接下来,本文提出基于超图划分的话题检测算法。该算法对Web特征进行了二次提取,并使用超图划分算法进行话题检测,使话题检测的精度得到明显提高。
[Abstract]:Web has become the main platform for human storage and sharing information . For this huge information source , how to retrieve useful information is a very challenging task . Because of the nature of the Web , such as a large number of unstructured or semi - structured documents , multimedia information and uneven web quality , it is difficult to apply the traditional information retrieval technology for structured data . The information retrieval on the Web has formed an independent subject , and the research content is very wide .
This paper focuses on the research focus of information retrieval in Web , and studies deeply in the following aspects .
First , this paper studies the important component _ web ranking algorithm of modern search engine . Based on the deficiency of HITS , a ranking algorithm based on gravity model is presented in this paper . This model describes the web page as a particle , describes the various factors related to the web page ranking as the quality or distance of the web page , describes the relationship of web pages with universal gravitation , and overcomes the shortage of purely link - based ranking algorithm .
Secondly , aiming at increasingly rampant web page ranking cheating , this paper studies the problem of anti - trust and non - trust based on link - based web page ranking . This paper first analyzes the problems of trust or non - trust in the famous trust rank algorithm and Anti - Trust Rank algorithm , and puts forward a comprehensive framework for simultaneous propagation of trust and non - trust . The algorithm overcomes the shortcomings of the trust rank algorithm and Anti - Trust Rank algorithm , and improves the efficiency of the anti - webpage ranking cheating .
Thirdly , the problem of community identification on the Web is studied in this paper . The community is an important phenomenon on the Web , which reflects the distribution of the topic in the Web . The community identification can find the topic distribution by digging the dense subgraph of the Web graph . But each web page contains a plurality of topics .
Finally , this paper studies the topic detection in Web . In order to detect the topic more effectively , this paper first studies the spectrum clustering algorithm , improves the existing spectral clustering algorithm , and uses the improved spectral clustering algorithm to detect the topic . Next , this paper proposes a topic detection algorithm based on hypergraph partition .
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3;TP393.092
【参考文献】
相关期刊论文 前7条
1 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
2 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
3 赵华;赵铁军;于浩;郑德权;;基于查询向量的英语话题跟踪研究[J];计算机研究与发展;2007年08期
4 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期
5 王会珍;朱靖波;季铎;叶娜;张斌;;基于反馈学习自适应的中文话题追踪[J];中文信息学报;2006年03期
6 张阔;李涓子;吴刚;王克宏;;基于词元再评估的新事件检测模型[J];软件学报;2008年04期
7 洪宇;张宇;范基礼;刘挺;李生;;基于语义域语言模型的中文话题关联检测[J];软件学报;2008年09期
,本文编号:2094147
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2094147.html