面向聚焦的Web网页获取和信息抽取方法研究
发布时间:2017-06-17 10:13
本文关键词:面向聚焦的Web网页获取和信息抽取方法研究,由笔耕文化传播整理发布。
【摘要】:互联网成为目前规模最大的信息载体,储藏着大量有价值的信息,利用诸如Google、Baidu等信息检索工具从互联网上获得目标信息,已经成为现代生活必不可少的组成部分。但随着互联网信息的不断增加,简单的信息检索已经难以满足实际需要,用户常常被淹没在过量的信息中。面对上述情况,以某个主题或结构为目标的、面向聚焦的信息抽取方法逐渐成为互联网应用研究的一个热点。信息抽取是信息检索技术的一个延伸,它可以将结构化信息从半结构或非结构信息中提取出来,Web信息抽取的应用可以提高用户对互联网信息的利用率。由于Web网页的海量性、动态性、异构性等特征,Web信息抽取技术面临着可移植性的挑战——针对某个网站或主题的信息抽取方法难以应用到其他网站或主题上。本文围绕Web信息抽取的可移植性,对面向聚焦的Web信息获取和信息抽取方法进行了研究。主要内容如下:(1)本文提出了基于URL结构过滤的非监督的聚焦爬虫(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL结构分析,通过引入非监督的权重调节机制判断URL结构模式,可以仅用极少的样本实现大规模网页的跨网站获取,较基于内容的聚焦爬虫提高了执行效率。通过实验对比了UURLSF与传统方法在准确率、收获率和效率方面的效果。(2)本文提出了基于视觉单位的Web信息抽取方法。此方法基于Web网页感知原理,将信息抽取分为视觉单位的识别和目标信息的抽取两部分。视觉单位的划分过程独立于HTML标签,提高了视觉单位识别的可扩展性。本文将该方法应用在新闻正文抽取中,实验结果表明此方法具有较好的效果。(3)本文提出了基于增量聚类的非模型的Web信息抽取方法。该方法面向以数据为驱动的非模型推理机制,分别提出了基于全局和局部稳定度的聚类有效评价方法、面向Web信息抽取应用的增量聚类算法,并将其方法应用在新闻正文抽取当中。跟传统的基于建模的信息抽取方法相比,此方法能随着样本数量的增加不断提高信息抽取效果。在互联网数据极为丰富的背景下,这一方法有着更好的适应性。
【关键词】:Web信息抽取 聚焦爬虫 视觉单位 增量聚类
【学位授予单位】:上海大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要6-8
- ABSTRACT8-11
- 第一章 绪论11-19
- 1.1 研究背景11-13
- 1.2 国内外研究现状概况13-16
- 1.3 论文的主要研究内容16-18
- 1.3.1 基于URL结构过滤的非监督的聚焦爬虫17
- 1.3.2 基于视觉单位的Web网页信息抽取技术17
- 1.3.3 基于增量聚类的非模型Web网页信息抽取方法17-18
- 1.4 本文组织18-19
- 第二章Web信息抽取与相关技术19-27
- 2.1 Web信息抽取技术综述19-25
- 2.1.1 基于包装器的技术20-21
- 2.1.2 基于视觉的技术21
- 2.1.3 基于统计的技术21-22
- 2.1.4 基于本体的技术22-23
- 2.1.5 Web网页处理相关技术23-25
- 2.2 小结25-27
- 第三章 基于URL结构过滤的非监督的聚焦爬虫27-45
- 3.1 概述27-29
- 3.2 相关工作29-30
- 3.3 基于URL结构过滤的非监督的聚焦爬虫30-36
- 3.3.1 URL结构介绍30-32
- 3.3.2 URL过滤策略32-34
- 3.3.3 非监督的权重调节机制34-36
- 3.4 实验与分析36-44
- 3.4.1 数据集36-37
- 3.4.2 实验结果与分析37-44
- 3.5 小结44-45
- 第四章 基于视觉单位的Web信息抽取技术及其在新闻正文抽取中的应用45-52
- 4.1 概述45
- 4.2 相关工作45-46
- 4.3 基于视觉单位的Web信息抽取方法及应用46-50
- 4.3.1 视觉单位识别47-48
- 4.3.2 新闻正文抽取的应用48-50
- 4.4 实验与分析50-51
- 4.5 小结51-52
- 第五章 基于增量聚类的非模型Web信息抽取方法52-69
- 5.1 概述52-53
- 5.2 相关工作53-54
- 5.3 有限增量聚类方法54-61
- 5.3.1 假设和前提54-55
- 5.3.2 Kmeans的基本原理55-56
- 5.3.3 基于全局和局部稳定度的聚类有效评价方法56-58
- 5.3.4 面向信息抽取应用的增量聚类方法58-59
- 5.3.5 实验59-61
- 5.4 基于增量聚类的非模型信息抽取方法在新闻正文抽取中的应用61-68
- 5.4.1 新闻正文抽取相关文献61-62
- 5.4.2 新闻正文抽取62-65
- 5.4.3 实验65-68
- 5.5 小结68-69
- 第六章 结论与展望69-71
- 6.1 研究工作的创新性69-70
- 6.2 研究工作的延展性70-71
- 参考文献71-77
- 作者在攻读硕士学位期间公开发表的论文77-78
- 作者在攻读硕士学位期间所作的项目78-79
- 致谢79
【参考文献】
中国博士学位论文全文数据库 前1条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
本文关键词:面向聚焦的Web网页获取和信息抽取方法研究,由笔耕文化传播整理发布。
,本文编号:458085
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/458085.html