当前位置:主页 > 管理论文 > 移动网络论文 >

面向论坛爬行器中链接提取算法研究

发布时间:2021-07-22 06:26
  今天论坛在互联网世界中是一个不可替代的平台,其背后是形形色色的人们通过互联网组织成的社区,并通过各自感兴趣的话题相互交流。论坛每天都会产生海量的数据,如何从中快速有效地在检索出用户感兴趣的信息,对每位网络爬行器的研究者都是一个巨大的挑战。在现今主流的通用爬行器中,爬行往往是通过某页面中抽取到某论坛内任意链接,然后以此作为起点页开始对整个论坛进行爬取,再对爬取到的页面抽取URL,通过链接分析算法得到相应的权重,和设定的阈值进行比较来判定该链接是否值得爬取。这种类型的爬行方式在对论坛进行爬取时往往耗时耗力,虽然最终的爬行结果和效率可以被接受,但是对于爬行器的设计者和研究人员来说,如何提高爬行器的爬行效率是一个永远追求的目标。而本文的研究目的也正是想通过寻找论坛主页作为爬行起始点,并简化链接抽取过程来提高爬行的召回率。本文主要研究如下:第一,通用爬行器对论坛的爬行过程往往是从论坛内某页面开始对整个论坛站点进行爬行,这样的方式在爬取论坛网页时存在着诸多的问题,由于起点论坛页面所包含链接的全面性存在不足,因此很难取得高覆盖率。本文通过对论坛站点的观察,注意到爬行器从论坛主页开始爬行的重要性,提出... 

【文章来源】:昆明理工大学云南省

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究现状及分析
    1.3 本文主要研究工作
    1.4 本文主要内容和组织
第2章 链接分析相关技术研究
    2.1 HITS算法
    2.2 PageRank算法
    2.3 HITS和PageRank算法总结
        2.3.1 两种算法存在的区别
        2.3.2 经典算法的不足
    2.4 基于传统算法的融合与改进
        2.4.1 面向主题的Blog爬行器研究
        2.4.2 基于链接分析的Blog网页算法研究
    2.5 本章小结
第3章 论坛入口点探测
    3.1 算法提出的背景
    3.2 相关研究工作
    3.3 入口点探测算法
    3.4 本章小结
第4章 论坛页面链接的抽取
    4.1 相关观察以及算法提出背景
    4.2 本章节中需要引用到的相关术语
    4.3 链接抽取
        4.3.1 索引和帖子URL识别
        4.3.2 “入口-索引-分页”正则式识别
    4.4 本章小结
第5章 相关实验及结果分析评估
    5.1 实验设计的相关说明
    5.2 实验环境
    5.3 实验运行
        5.3.1 索引帖子URL探测模块
        5.3.2 分页URL探测模块
        5.3.3 入口URL探测模块
        5.3.4 爬行流程图
        5.3.5 实验运行
    5.4 实验结果分析与评估
        5.4.1 入口页面爬行结果及评估
        5.4.2 各类型页面爬行结果及评估
    5.5 应用扩展
    5.6 本章小结
结论与展望
致谢
参考文献
附录 攻读学位期间申请软件著作权


【参考文献】:
期刊论文
[1]基于博主之间社会关系的博客排序算法[J]. 韩丽,岑松祥,马建,马严.  计算机工程. 2010(05)
[2]SEO技术分析及其策略[J]. 葛玉军.  科技情报开发与经济. 2009(16)
[3]一种基于多特征融合的博客文章排序算法[J]. 卢刚.  计算机工程. 2009(02)
[4]基于RSS信息服务联盟的内容聚合技术研究[J]. 陈峰,熊励.  计算机技术与发展. 2009(01)
[5]基于链接分析的重要Blog信息源发现[J]. 杨宇航,赵铁军,郑德权,于浩.  中文信息学报. 2007(05)
[6]Internet中的页面价值快速算法模型研究[J]. 郭晔.  微电子学与计算机. 2007(08)
[7]Web结构挖掘及HITS算法分析[J]. 黄英铭.  计算机与现代化. 2007(07)
[8]搜索引擎的检索技术及其对比研究[J]. 金蓓,叶晓俊.  北京城市学院学报. 2006(04)
[9]Blog应用的技术解析[J]. 郭华伟,赵冬生,王万森.  微计算机信息. 2006(12)
[10]超链接网络分析的理论与应用研究[J]. 庞景安.  情报理论与实践. 2005(06)

硕士论文
[1]基于链接分析的Blog网页排序算法的研究[D]. 王昭华.东北大学 2009
[2]面向主题的网络爬行器相关技术研究[D]. 朴星海.哈尔滨工业大学 2007
[3]基于标签的互联网自由分类法研究[D]. 隆捷.北京大学 2007
[4]基于web的网页链接与正文抽取技术研究[D]. 蒲宇达.哈尔滨工业大学 2006



本文编号:3296630

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3296630.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f12c7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com