当前位置:主页 > 管理论文 > 移动网络论文 >

面向聚焦的Web网页获取和信息抽取方法研究

发布时间:2017-06-17 10:13

  本文关键词:面向聚焦的Web网页获取和信息抽取方法研究,由笔耕文化传播整理发布。


【摘要】:互联网成为目前规模最大的信息载体,储藏着大量有价值的信息,利用诸如Google、Baidu等信息检索工具从互联网上获得目标信息,已经成为现代生活必不可少的组成部分。但随着互联网信息的不断增加,简单的信息检索已经难以满足实际需要,用户常常被淹没在过量的信息中。面对上述情况,以某个主题或结构为目标的、面向聚焦的信息抽取方法逐渐成为互联网应用研究的一个热点。信息抽取是信息检索技术的一个延伸,它可以将结构化信息从半结构或非结构信息中提取出来,Web信息抽取的应用可以提高用户对互联网信息的利用率。由于Web网页的海量性、动态性、异构性等特征,Web信息抽取技术面临着可移植性的挑战——针对某个网站或主题的信息抽取方法难以应用到其他网站或主题上。本文围绕Web信息抽取的可移植性,对面向聚焦的Web信息获取和信息抽取方法进行了研究。主要内容如下:(1)本文提出了基于URL结构过滤的非监督的聚焦爬虫(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL结构分析,通过引入非监督的权重调节机制判断URL结构模式,可以仅用极少的样本实现大规模网页的跨网站获取,较基于内容的聚焦爬虫提高了执行效率。通过实验对比了UURLSF与传统方法在准确率、收获率和效率方面的效果。(2)本文提出了基于视觉单位的Web信息抽取方法。此方法基于Web网页感知原理,将信息抽取分为视觉单位的识别和目标信息的抽取两部分。视觉单位的划分过程独立于HTML标签,提高了视觉单位识别的可扩展性。本文将该方法应用在新闻正文抽取中,实验结果表明此方法具有较好的效果。(3)本文提出了基于增量聚类的非模型的Web信息抽取方法。该方法面向以数据为驱动的非模型推理机制,分别提出了基于全局和局部稳定度的聚类有效评价方法、面向Web信息抽取应用的增量聚类算法,并将其方法应用在新闻正文抽取当中。跟传统的基于建模的信息抽取方法相比,此方法能随着样本数量的增加不断提高信息抽取效果。在互联网数据极为丰富的背景下,这一方法有着更好的适应性。
【关键词】:Web信息抽取 聚焦爬虫 视觉单位 增量聚类
【学位授予单位】:上海大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要6-8
  • ABSTRACT8-11
  • 第一章 绪论11-19
  • 1.1 研究背景11-13
  • 1.2 国内外研究现状概况13-16
  • 1.3 论文的主要研究内容16-18
  • 1.3.1 基于URL结构过滤的非监督的聚焦爬虫17
  • 1.3.2 基于视觉单位的Web网页信息抽取技术17
  • 1.3.3 基于增量聚类的非模型Web网页信息抽取方法17-18
  • 1.4 本文组织18-19
  • 第二章Web信息抽取与相关技术19-27
  • 2.1 Web信息抽取技术综述19-25
  • 2.1.1 基于包装器的技术20-21
  • 2.1.2 基于视觉的技术21
  • 2.1.3 基于统计的技术21-22
  • 2.1.4 基于本体的技术22-23
  • 2.1.5 Web网页处理相关技术23-25
  • 2.2 小结25-27
  • 第三章 基于URL结构过滤的非监督的聚焦爬虫27-45
  • 3.1 概述27-29
  • 3.2 相关工作29-30
  • 3.3 基于URL结构过滤的非监督的聚焦爬虫30-36
  • 3.3.1 URL结构介绍30-32
  • 3.3.2 URL过滤策略32-34
  • 3.3.3 非监督的权重调节机制34-36
  • 3.4 实验与分析36-44
  • 3.4.1 数据集36-37
  • 3.4.2 实验结果与分析37-44
  • 3.5 小结44-45
  • 第四章 基于视觉单位的Web信息抽取技术及其在新闻正文抽取中的应用45-52
  • 4.1 概述45
  • 4.2 相关工作45-46
  • 4.3 基于视觉单位的Web信息抽取方法及应用46-50
  • 4.3.1 视觉单位识别47-48
  • 4.3.2 新闻正文抽取的应用48-50
  • 4.4 实验与分析50-51
  • 4.5 小结51-52
  • 第五章 基于增量聚类的非模型Web信息抽取方法52-69
  • 5.1 概述52-53
  • 5.2 相关工作53-54
  • 5.3 有限增量聚类方法54-61
  • 5.3.1 假设和前提54-55
  • 5.3.2 Kmeans的基本原理55-56
  • 5.3.3 基于全局和局部稳定度的聚类有效评价方法56-58
  • 5.3.4 面向信息抽取应用的增量聚类方法58-59
  • 5.3.5 实验59-61
  • 5.4 基于增量聚类的非模型信息抽取方法在新闻正文抽取中的应用61-68
  • 5.4.1 新闻正文抽取相关文献61-62
  • 5.4.2 新闻正文抽取62-65
  • 5.4.3 实验65-68
  • 5.5 小结68-69
  • 第六章 结论与展望69-71
  • 6.1 研究工作的创新性69-70
  • 6.2 研究工作的延展性70-71
  • 参考文献71-77
  • 作者在攻读硕士学位期间公开发表的论文77-78
  • 作者在攻读硕士学位期间所作的项目78-79
  • 致谢79

【参考文献】

中国博士学位论文全文数据库 前1条

1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年


  本文关键词:面向聚焦的Web网页获取和信息抽取方法研究,由笔耕文化传播整理发布。



本文编号:458085

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/458085.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户85b65***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com