基于内容的网页采集分类系统的设计与实现

发布时间：2021-11-28 02:16

　　随着互联网的日益繁荣,互联网上的信息资源也越来越多,虽然方便了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反而影响了用户对于有效信息的寻找。互联网新闻作为一种主流的互联网信息来源,相对于其他信息来源具有更大的研究价值,对互联网新闻准确高效地采集并分类是十分必要的,在信息检索和数据挖掘领域都有着重要的意义。基于网页内容对新闻进行分类可以充分考虑新闻内容的语义,避免了网站对新闻误分类或未分类带来的采集结果错误,有着更好的分类效果。论文对网页正文采集技术进行了深入的研究,结合新闻类网站的特点,制定了较为有效的采集策略和更新策略,保证了新闻采集的高效性。由于新闻网站来源较多,网站改版较为频繁,基于模板的正文提取技术己经不能保证提取的准确率,论文通过对网页正文提取技术进行分析比较,得到了一种基于文本分布的通用正文提取算法,并通过实验确定了算法中的最优值,减少了人工编写规则带来的时间成本。对于文本的分类,论文研究并分析了文本分类的整体流程,选用Labeled LDA进行文本的特征表示,相对于传统的向量空间模型降低了特征维度,避免了语义信息的丢失,将LDA模型扩展为有监督的分类模型。...

【文章来源】：东南大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

基于内容的网页采集分类系统的设计与实现

爬虫的基本工作流程

广度优先,遍历,网页,顺序

图 2-2 广度优先遍历顺序能够很快的找到种子 URL 相关的网页链接，从而避免爬虫爬虫更容易实现分布化爬取，从而提升爬取效率。策略的基本思路是按照网页层级深度从低到高的顺序，依次访问[15]，此时，爬虫返回上一节点进行其他分支的爬取，直到网网络结构，深度优先遍历策略的遍历顺序如图中数字所示：

深度优先遍历,垂直搜索,策略,顺序

图 2-2 广度优先遍历顺序能够很快的找到种子 URL 相关的网页链接，从而避免爬虫爬虫更容易实现分布化爬取，从而提升爬取效率。略的基本思路是按照网页层级深度从低到高的顺序，依次访[15]，此时，爬虫返回上一节点进行其他分支的爬取，直到网络结构，深度优先遍历策略的遍历顺序如图中数字所示

【参考文献】：
期刊论文
[1]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕.  软件. 2017(07)
[2]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[3]一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 李湘东,巴志超,黄莉.  现代图书情报技术. 2015(05)
[4]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰.  计算机应用研究. 2015(05)
[5]中文分词与词性标注研究[J]. 梁喜涛,顾磊.  计算机技术与发展. 2015(02)
[6]基于LDA-wSVM模型的文本分类研究[J]. 李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.  计算机应用研究. 2015(01)
[7]基于LDA的文本分类算法[J]. 何锦群,刘朋杰.  天津理工大学学报. 2014(04)
[8]文本分类性能评价研究[J]. 奉国和.  情报杂志. 2011(08)
[9]基于文档频率的特征选择方法[J]. 杨凯峰,张毅坤,李燕.  计算机工程. 2010(17)
[10]基于机器学习的网页正文提取方法[J]. 安增文,王超,徐杰锋.  微型机与应用. 2010(12)

硕士论文
[1]基于web的网页链接与正文抽取技术研究[D]. 蒲宇达.哈尔滨工业大学 2006

本文编号：3523498

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3523498.html

上一篇：基于控制理论的TCP网络的主动队列管理算法研究
下一篇：广域云环境下优化成本效率的调度算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|