任意网页的主题信息抽取研究
本文选题:任意网页 切入点:主题信息 出处:《中文信息学报》2017年05期 论文类型:期刊论文
【摘要】:目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。
[Abstract]:At present, most of the methods of web page information extraction are limited to a certain type of web page extraction, and do not go further into the extraction of any web page. In this paper, a framework of arbitrary web page topic information extraction based on fusion mechanism is proposed. The feature is that the integration of template independent automatic extraction algorithm and template based extraction algorithm is realized by "template base matching-template based extraction-web page classification-automatic extraction". This fusion mechanism can effectively improve the accuracy of extraction, and finally establish a practical information extraction framework suitable for any web page.
【作者单位】: 中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室;中国科学院大学;
【基金】:国家重点基础研究发展计划(“973”计划)(2014CB340401,2013CB329606) 科技部重点研发计划(2016QY02D0405) 国家自然科学基金(61232010,61472401,61425016,61203298) 中国科学院青年创新促进会优秀会员项目(20144310,2016102)
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 巫满秀;;浅谈网页信息的保存技巧[J];福建电脑;2007年07期
2 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
3 张俊英;胡侠;卜佳俊;;网页文本信息自动提取技术综述[J];计算机应用研究;2009年08期
4 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
5 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
6 周序生;李爽;;网页自动分类的建模与仿真研究[J];计算机仿真;2011年10期
7 张小娣;宋余庆;;基于网页正文逻辑段落和长句提取的网页去重算法[J];图书情报研究;2012年02期
8 周杨;;基于关键长句及正文长度预分类的网页去重算法研究[J];软件导刊;2012年10期
9 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
10 刘娟;赵晓楠;;网页主题相关性判别的聚焦爬虫系统的设计与实现[J];计算机与现代化;2012年10期
相关会议论文 前8条
1 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
4 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 朱春江;陆宇e,
本文编号:1585910
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1585910.html