当前位置:主页 > 管理论文 > 移动网络论文 >

基于内容的网页采集分类系统的设计与实现

发布时间:2021-11-28 02:16
  随着互联网的日益繁荣,互联网上的信息资源也越来越多,虽然方便了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反而影响了用户对于有效信息的寻找。互联网新闻作为一种主流的互联网信息来源,相对于其他信息来源具有更大的研究价值,对互联网新闻准确高效地采集并分类是十分必要的,在信息检索和数据挖掘领域都有着重要的意义。基于网页内容对新闻进行分类可以充分考虑新闻内容的语义,避免了网站对新闻误分类或未分类带来的采集结果错误,有着更好的分类效果。论文对网页正文采集技术进行了深入的研究,结合新闻类网站的特点,制定了较为有效的采集策略和更新策略,保证了新闻采集的高效性。由于新闻网站来源较多,网站改版较为频繁,基于模板的正文提取技术己经不能保证提取的准确率,论文通过对网页正文提取技术进行分析比较,得到了一种基于文本分布的通用正文提取算法,并通过实验确定了算法中的最优值,减少了人工编写规则带来的时间成本。对于文本的分类,论文研究并分析了文本分类的整体流程,选用Labeled LDA进行文本的特征表示,相对于传统的向量空间模型降低了特征维度,避免了语义信息的丢失,将LDA模型扩展为有监督的分类模型。... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于内容的网页采集分类系统的设计与实现


爬虫的基本工作流程

广度优先,遍历,网页,顺序


图 2-2 广度优先遍历顺序能够很快的找到种子 URL 相关的网页链接,从而避免爬虫爬虫更容易实现分布化爬取,从而提升爬取效率。策略的基本思路是按照网页层级深度从低到高的顺序,依次访问[15],此时,爬虫返回上一节点进行其他分支的爬取,直到网网络结构,深度优先遍历策略的遍历顺序如图中数字所示:

深度优先遍历,垂直搜索,策略,顺序


图 2-2 广度优先遍历顺序能够很快的找到种子 URL 相关的网页链接,从而避免爬虫爬虫更容易实现分布化爬取,从而提升爬取效率。略的基本思路是按照网页层级深度从低到高的顺序,依次访[15],此时,爬虫返回上一节点进行其他分支的爬取,直到网络结构,深度优先遍历策略的遍历顺序如图中数字所示

【参考文献】:
期刊论文
[1]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕.  软件. 2017(07)
[2]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[3]一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 李湘东,巴志超,黄莉.  现代图书情报技术. 2015(05)
[4]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰.  计算机应用研究. 2015(05)
[5]中文分词与词性标注研究[J]. 梁喜涛,顾磊.  计算机技术与发展. 2015(02)
[6]基于LDA-wSVM模型的文本分类研究[J]. 李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.  计算机应用研究. 2015(01)
[7]基于LDA的文本分类算法[J]. 何锦群,刘朋杰.  天津理工大学学报. 2014(04)
[8]文本分类性能评价研究[J]. 奉国和.  情报杂志. 2011(08)
[9]基于文档频率的特征选择方法[J]. 杨凯峰,张毅坤,李燕.  计算机工程. 2010(17)
[10]基于机器学习的网页正文提取方法[J]. 安增文,王超,徐杰锋.  微型机与应用. 2010(12)

硕士论文
[1]基于web的网页链接与正文抽取技术研究[D]. 蒲宇达.哈尔滨工业大学 2006



本文编号:3523498

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3523498.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2ab6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com