自适应Web数据抽取技术研究
发布时间:2017-11-24 15:27
本文关键词:自适应Web数据抽取技术研究
【摘要】:自20世纪90年代以来Internet技术得到了高速和深入发展,互联网上的信息资源呈现爆炸式增长,当今的互联网已成为一个巨大而开放的知识库。但是Web页面中的信息格式复杂多样,除了正文之外还包含导航栏、广告链接、相关阅读等噪音信息,这些噪音信息的存在极大地影响了搜索引擎的效率和准确率。因此,研究如何自适应抽取Web网页信息成为了一个重要的研究课题。Web页面一般为半结构化页面,其构成语言缺乏严格规范的语法,而且HTML标签并不表达有意义的语义信息,所以传统的自然语言处理技术无法很好的胜任Web页面的信息抽取工作。从用户角度看,Web页面经过浏览器的渲染,其中包含了大量的视觉特征和统计特征等等,利用这些页面特征可以实现Web页面数据的抽取。本文的研究内容主要针对舆情分析需求,研究Web上舆情数据抽取技术。具体研究包括:1.针对Web正文信息抽取问题提出了一种基于Web页面视觉特征的正文抽取方法。根据HTML5和网页布局的特点对VIPS算法的规则做了调整,并应用VIPS算法将Web页面分割成独立语义块。根据视觉和统计特征提出了舆情数据的抽取规则,利用规则删除非正文视觉块,抽取出页面的正文信息块,最后将正文信息块中的数据组成正文。2.设计了一种自适应Web页面数据抽取方法。方法应用XPath表达式抽取页面实体数据,并使用模板记录页面数据特征。若页面结构发生变化导致原XPath表达式无法正确抽取数据,则根据模板记录搜索数据。为增加搜索效率,采用由叶子节点向根节点逆序搜索的策略。搜索成功后得到目标数据,并更新原XPath表达式,从而达到了自适应页面结构的变化,减少人工干预的目的。3.研究了DOM树和XPath等技术,分别设计和实现了Web正文信息抽取和页面数据抽取实验。本文通过对10个主流的新闻类和论坛类网站的数据集进行实验分析。实验结果表明,本文提出的正文抽取方法在准确率上高于传统算法,数据抽取方法在页面变化后同样达到了较高的准确率。
【学位授予单位】:辽宁大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【参考文献】
中国期刊全文数据库 前10条
1 成卫青;于静;杨晶;杨龙;;基于页面分类的Web信息抽取方法研究[J];计算机技术与发展;2013年01期
2 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
3 安增文;徐杰锋;;基于视觉特征的网页正文提取方法研究[J];微型机与应用;2010年03期
4 周佳颖;朱珍民;高晓芳;;基于统计与正文特征的中文网页正文抽取研究[J];中文信息学报;2009年05期
5 李宏伟;史培中;张素智;;一种高效Web数据抽取包装器的设计与实现[J];计算机技术与发展;2009年02期
6 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
7 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
8 邓尚民;孙玉伟;;信息抽取系统的研究现状[J];现代图书情报技术;2006年03期
9 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
10 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
,本文编号:1222733
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1222733.html