面向聚焦的Web网页获取和信息抽取方法研究

发布时间：2017-06-17 10:13

本文关键词：面向聚焦的Web网页获取和信息抽取方法研究，由笔耕文化传播整理发布。

【摘要】：互联网成为目前规模最大的信息载体,储藏着大量有价值的信息,利用诸如Google、Baidu等信息检索工具从互联网上获得目标信息,已经成为现代生活必不可少的组成部分。但随着互联网信息的不断增加,简单的信息检索已经难以满足实际需要,用户常常被淹没在过量的信息中。面对上述情况,以某个主题或结构为目标的、面向聚焦的信息抽取方法逐渐成为互联网应用研究的一个热点。信息抽取是信息检索技术的一个延伸,它可以将结构化信息从半结构或非结构信息中提取出来,Web信息抽取的应用可以提高用户对互联网信息的利用率。由于Web网页的海量性、动态性、异构性等特征,Web信息抽取技术面临着可移植性的挑战——针对某个网站或主题的信息抽取方法难以应用到其他网站或主题上。本文围绕Web信息抽取的可移植性,对面向聚焦的Web信息获取和信息抽取方法进行了研究。主要内容如下:(1)本文提出了基于URL结构过滤的非监督的聚焦爬虫(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL结构分析,通过引入非监督的权重调节机制判断URL结构模式,可以仅用极少的样本实现大规模网页的跨网站获取,较基于内容的聚焦爬虫提高了执行效率。通过实验对比了UURLSF与传统方法在准确率、收获率和效率方面的效果。(2)本文提出了基于视觉单位的Web信息抽取方法。此方法基于Web网页感知原理,将信息抽取分为视觉单位的识别和目标信息的抽取两部分。视觉单位的划分过程独立于HTML标签,提高了视觉单位识别的可扩展性。本文将该方法应用在新闻正文抽取中,实验结果表明此方法具有较好的效果。(3)本文提出了基于增量聚类的非模型的Web信息抽取方法。该方法面向以数据为驱动的非模型推理机制,分别提出了基于全局和局部稳定度的聚类有效评价方法、面向Web信息抽取应用的增量聚类算法,并将其方法应用在新闻正文抽取当中。跟传统的基于建模的信息抽取方法相比,此方法能随着样本数量的增加不断提高信息抽取效果。在互联网数据极为丰富的背景下,这一方法有着更好的适应性。
【关键词】：Web信息抽取 聚焦爬虫 视觉单位 增量聚类
【学位授予单位】：上海大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.092;TP391.1
【目录】：

摘要6-8
ABSTRACT8-11
第一章绪论11-19
1.1 研究背景11-13
1.2 国内外研究现状概况13-16
1.3 论文的主要研究内容16-18
1.3.1 基于URL结构过滤的非监督的聚焦爬虫17
1.3.2 基于视觉单位的Web网页信息抽取技术17
1.3.3 基于增量聚类的非模型Web网页信息抽取方法17-18
1.4 本文组织18-19
第二章Web信息抽取与相关技术19-27
2.1 Web信息抽取技术综述19-25
2.1.1 基于包装器的技术20-21
2.1.2 基于视觉的技术21
2.1.3 基于统计的技术21-22
2.1.4 基于本体的技术22-23
2.1.5 Web网页处理相关技术23-25
2.2 小结25-27
第三章基于URL结构过滤的非监督的聚焦爬虫27-45
3.1 概述27-29
3.2 相关工作29-30
3.3 基于URL结构过滤的非监督的聚焦爬虫30-36
3.3.1 URL结构介绍30-32
3.3.2 URL过滤策略32-34
3.3.3 非监督的权重调节机制34-36
3.4 实验与分析36-44
3.4.1 数据集36-37
3.4.2 实验结果与分析37-44
3.5 小结44-45
第四章基于视觉单位的Web信息抽取技术及其在新闻正文抽取中的应用45-52
4.1 概述45
4.2 相关工作45-46
4.3 基于视觉单位的Web信息抽取方法及应用46-50
4.3.1 视觉单位识别47-48
4.3.2 新闻正文抽取的应用48-50
4.4 实验与分析50-51
4.5 小结51-52
第五章基于增量聚类的非模型Web信息抽取方法52-69
5.1 概述52-53
5.2 相关工作53-54
5.3 有限增量聚类方法54-61
5.3.1 假设和前提54-55
5.3.2 Kmeans的基本原理55-56
5.3.3 基于全局和局部稳定度的聚类有效评价方法56-58
5.3.4 面向信息抽取应用的增量聚类方法58-59
5.3.5 实验59-61
5.4 基于增量聚类的非模型信息抽取方法在新闻正文抽取中的应用61-68
5.4.1 新闻正文抽取相关文献61-62
5.4.2 新闻正文抽取62-65
5.4.3 实验65-68
5.5 小结68-69
第六章结论与展望69-71
6.1 研究工作的创新性69-70
6.2 研究工作的延展性70-71
参考文献71-77
作者在攻读硕士学位期间公开发表的论文77-78
作者在攻读硕士学位期间所作的项目78-79
致谢79

【参考文献】

中国博士学位论文全文数据库前1条

1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

本文关键词：面向聚焦的Web网页获取和信息抽取方法研究，由笔耕文化传播整理发布。

，

本文编号：458085

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/458085.html

上一篇：基于网络特征分析技术的网络管理系统设计与实现
下一篇：基于FPGA的硬件防火墙系统的研究与设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|