智能Web新闻文本采集方法研究
本文关键词:智能Web新闻文本采集方法研究,,由笔耕文化传播整理发布。
【摘要】:Web技术的革新使其逐渐成为网络内容生产和消费的平台,互联网上充斥着无数以网页形式存在的信息源,随着搜索引擎、网络监控和新闻推送等应用和研究工作的深入发展,使得互联网新闻文本采集成为国内外相关人士研究的热点。Web页面中不仅包含用户关注的正文内容,还包含大量噪声信息,如广告、导航和相关推荐信息等,使得智能化提取网页正文文本成为新闻文本采集的难题之一。传统的基于模版的网页正文提取不仅需要人工的配置各网站的解析模版,而且模版不能实时的适应网页结构的变化,使得后期维护成本较大。Web网页的异构特点对现有的基于规则学习的包装器网页解析技术也提出了新的挑战。本文将着重对新闻网页正文的智能化解析技术展开研究,结合新闻网页结构特点、新闻文本标签特点以及Web新闻文本采集的需求,提出能够智能适应网页结构变化和通用于各门户新闻网页的正文提取方法。本文主要贡献如下:(1)提出基于文本标签特征挖掘的网页正文提取方法。该方法主要挖掘网页树结构特性、正文标签的中心性、正文标签连续性、正文标签层次性和Html修饰标签特征等特点,运用层次聚类算法对标签进行聚类,对标签簇进行权值计算及经验性调整确定最终的网页正文标签簇,然后为实现新闻文本采集过程中尽可能多的采集新闻网页的文本信息,在文本标签特征挖掘的网页正文提取方法中增加一种适用于新闻文本采集的非新闻网页自识别方法:最后再通过正文标签簇提取网页正文。(2)提出基于智能模版的新闻网页正文提取方法。该方法避免人工配置网页解析模版的过程,而是根据各个门户新闻网页结构的特点,运用上文文本标签特征挖掘方法对站内大量新闻网页进行特征学习,进而自动学习出网页解析模版参数,最后根据模版信息对该网站内网页进行正文提取。综上所述,运用实际网页对本文提出的网页正文提取方法进行实验,实验结果不仅验证了本文提出的方法在Web新闻文本采集中的可行性和高准确率,也验证了本文方法在网页正文提取方面的通用性和智能化。
【关键词】:网页正文提取 标签特征 非新闻网页自识别 智能模版 机器学习
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要5-6
- ABSTRACT6-13
- 主要术语对照表13-14
- 第一章 绪论14-18
- 1.1 研究背景及意义14-15
- 1.2 研究现状15-16
- 1.3 本文研究内容16
- 1.4 本文章节安排16-18
- 第二章 新闻文本采集相关技术18-28
- 2.1 网络爬虫相关技术18-21
- 2.1.1 网络爬虫策略18-20
- 2.1.2 网络爬虫分类20-21
- 2.2 新闻网页正文提取技术21-26
- 2.3 非新闻网页自识别技术26-27
- 2.4 本章小结27-28
- 第三章 基于文本标签特征挖掘的网页正文提取方法28-61
- 3.1 方法思想及流程介绍28-30
- 3.2 网页源码预处理及修复30-34
- 3.2.1 HTML语言标准及特点分析30-31
- 3.2.2 文本标签预处理31-33
- 3.2.3 标签修复及转义字符处理33-34
- 3.3 文本标签特征选取及标签聚类34-43
- 3.3.1 文本标签特征工程34-36
- 3.3.2 文本标签特征提取方法36-39
- 3.3.3 文本标签特征向量及权重选择39-40
- 3.3.4 文本标签挖掘算法及选择40-43
- 3.4 正文簇选择及标签经验性调整43-49
- 3.4.1 初选正文簇选择策略43-45
- 3.4.2 正文簇经验性调整45-49
- 3.5 非新闻网页自识别及文本提取49-54
- 3.5.1 非新闻网页自识别方法49-52
- 3.5.2 非新闻网页自识别方法实验及分析52-53
- 3.5.3 正文簇标签文本提取53-54
- 3.6 实验及方法性能评估54-60
- 3.6.1 性能评估指标与实验数据集54-55
- 3.6.2 正文提取效果展示55-57
- 3.6.3 实验结果及评估分析57-60
- 3.7 本章小节60-61
- 第四章 基于智能模版的新闻网页正文提取方法61-74
- 4.1 方法思想及流程介绍61-63
- 4.2 网页解析模版自动生成方法63-67
- 4.2.1 网页源码结构分析63-64
- 4.2.2 网页正文标签块信息挖掘64-65
- 4.2.3 模版参数获取65-67
- 4.3 基于模版参数解析网页67-69
- 4.4 实验及性能评估69-73
- 4.4.1 实验及数据集简介69-70
- 4.4.2 实验测评标准70-71
- 4.4.3 实验结果与分析71-73
- 4.5 本章小结73-74
- 第五章 总结与展望74-76
- 5.1 工作总结74-75
- 5.2 工作的不足与展望75-76
- 致谢76-77
- 参考文献77-79
- 攻读硕士学位期间取得的研究成果79
【相似文献】
中国期刊全文数据库 前10条
1 孙发友;;简论新闻文本的消费[J];当代传播;2008年05期
2 谭志红;李铁锤;;新闻文本的特性分析[J];传媒观察;2009年08期
3 张振华;;新闻文本的“熟悉”特性[J];新闻爱好者;2010年06期
4 覃岚;;解释学视野中新闻文本的存在态势[J];当代传播;2011年06期
5 喻国伟;新闻文本空白研究[J];柳州师专学报;1996年03期
6 信险峰;;新闻界理应明晰的两个概念:新闻与新闻文本[J];南方电视学刊;2014年01期
7 杨保军;新闻文本的价值属性[J];当代传播;2003年06期
8 阎智凯;;浅析网络新闻文本的构型[J];新闻传播;2003年05期
9 杨保军;新闻文本的个性特征[J];当代传播;2004年02期
10 贺建平;新闻文本的多义性解读[J];当代传播;2004年02期
中国重要会议论文全文数据库 前2条
1 贺春禄;;报纸科技新闻文本的受众解读[A];中国科技新闻学会第九次学术年会论文集[C];2007年
2 陶建杰;;台湾主流报纸对“嫦娥一号”的报道研究——以新闻文本框架建构为视角[A];中国传媒大学第二届全国新闻学与传播学博士生学术研讨会论文集[C];2008年
中国重要报纸全文数据库 前1条
1 董天策 暨南大学新闻学院教授;多研读新闻文本[N];中华新闻报;2005年
中国博士学位论文全文数据库 前1条
1 孙发友;新闻文本显性状态及其潜在张力[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈[V川;论客观性与倾向性统一的新闻文本建构策略[D];西北师范大学;2015年
2 于畅;BBC新闻文本汉译复杂句式重构实践报告[D];辽宁师范大学;2015年
3 侯中熙;融合新闻要素的汉—泰双语新闻文本相似度计算方法研究[D];昆明理工大学;2016年
4 陈西安;智能Web新闻文本采集方法研究[D];电子科技大学;2016年
5 傅茜;新闻文本歧视研究[D];中央民族大学;2010年
6 张仕东;新闻文本的“熟悉”特性分析[D];河北大学;2005年
7 韩青芩;新闻文本的诗性特征探究[D];西南大学;2015年
8 黄璀;意义的建构与流通:基于新闻文本的网络流行语研究[D];暨南大学;2010年
9 尤建清;中文新闻文本倾向性分析研究[D];北京信息科技大学;2015年
10 李瑞芳;框架与新闻文本之建构[D];江西师范大学;2007年
本文关键词:智能Web新闻文本采集方法研究,由笔耕文化传播整理发布。
本文编号:454817
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/454817.html