基于相关背景图的主题微博用户发现方法的研究
发布时间:2017-11-24 03:26
本文关键词:基于相关背景图的主题微博用户发现方法的研究
更多相关文章: 主题爬虫 相关背景图 链接预测 语义分析 微博
【摘要】:随着互联网用户的急剧增长,以及网络应用的进一步深入,用户个性化的需求不断增长,,通用搜索引擎难以满足某些特殊用户群体的需求。主题爬行技术作为一种新颖的搜索技术应运而生,更新周期快,它资源消耗少,更重要的是能满足用户的个性化需求。 相关背景图(Relevancy Context Graph)可以收集给定主题的背景知识,并根据这些背景知识给每个待访问网页分配一个优先访问值,从而指导爬虫的爬行方向。但是,在相关背景图的背景知识构建中没有充分提取出网页之间的链接结构信息,同时也没有充分考虑网页之间的语义关系。因此,许多噪声网页并没有被有效的过滤掉。此外,相关背景图的主题特征词的定义也隐藏着一些缺陷。 本文的贡献总结如下。(1)优化了相关背景图,并应用相关背景图在微博中收集与主题相关的用户。在优化的过程中,借用社会网络中朋友链接预测的思想,重新设计了背景图中的链接结构关系,考虑了网页之间更多的结构关系,利用向量空间模型(Vector Space Model)以及语义向量空间模型(Semantic Similarity Vector Space Model)去过滤掉一些噪声网页,保证背景图的有效性。(2)利用背景图中词之间的语义关系去扩展主题特征单词,并有效地计算了扩展的主题特征单词的分布。(3)提出了一个经过链接分析和语义分析优化后的相关背景图的爬虫。(4)利用囊括各个领域的大量中文网页构建了中文通用语模型。(5)利用改进的相关背景图计算出的特征主题单词的分布以及通用语模型,结合微博中传播者的寻找技术,本文定义了主题传播者的计算方法。主题传播者会引导网络爬虫向更好的方向去收集微博主题相关的用户。 我在各个阶段都做了相应的实验,实验结果证明本文的方法是有效的。
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【参考文献】
中国期刊全文数据库 前5条
1 刘志明;刘鲁;;微博网络舆情中的意见领袖识别及分析[J];系统工程;2011年06期
2 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
3 郭阳;刘展威;赵正旭;;万维网链接结构的复杂性分析[J];计算机工程;2011年23期
4 化柏林;赵亮;;知识抽取中的嵌套向量分词技术[J];现代图书情报技术;2007年07期
5 陈敬文;彭哲;;基于CPN网络的Web正文抽取技术研究[J];现代图书情报技术;2008年11期
本文编号:1220871
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1220871.html