Web页面细粒度数据抽取方法研究
本文关键词:Web页面细粒度数据抽取方法研究
【摘要】:尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。
【作者单位】: 首都师范大学信息工程学院;北京理工大学图书馆;西南大学计算机与信息科学学院;
【关键词】: 信息抽取 Web挖掘 包装器 自动关联
【基金】:国家自然科学基金项目(61272446) 北京市属高等学校人才强教深化计划基金项目(PHR201008083)
【分类号】:TP393.092
【正文快照】: 0引言Web数据挖掘[1]重要的基础研究内容之一是Web页面数据抽取,目前已经有一些Web数据自动抽取方法[2-4]和系统[4-7]如Omini,RoadRunner,IEPAD,MDR,DEPAT等[5]。文献[6]提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,仅在局部进行归一化处理。文献[
【参考文献】
中国期刊全文数据库 前6条
1 田建伟;李石君;;基于层次树模型的Deep Web数据提取方法[J];计算机研究与发展;2011年01期
2 张慧颖;曲著伟;;基于子树匹配的交互式Web数据抽取方法[J];计算机工程;2006年09期
3 于江德;樊孝忠;尹继豪;顾益军;;基于隐马尔可夫模型的中文科研论文信息抽取[J];计算机工程;2007年19期
4 刘伟;严华梁;;一种统一的Web新闻对象自动抽取方法[J];计算机工程;2012年11期
5 刘伟;严华梁;肖建国;曾建勋;;一种Web评论自动抽取方法[J];软件学报;2010年12期
6 季春;姜琴;吴铮悦;;垂直搜索引擎关键技术研究综述[J];情报探索;2012年10期
【共引文献】
中国期刊全文数据库 前10条
1 尹忠刚;钟彦儒;刘静;朱权兵;;基于Markov链的变频调速系统随机PWM控制技术[J];电机与控制学报;2010年02期
2 刘宇;钱跃;;基于字典匹配和支持向量机的中文科技论文元数据抽取[J];工程数学学报;2012年04期
3 杨进;罗漫;张启蕊;;文本挖掘在中医药文献分析中的应用[J];广东药学院学报;2010年02期
4 珠杰;欧珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];计算机工程;2008年24期
5 曲著伟;李敏强;;基于数据区域发现的信息抽取规则生成方法[J];计算机工程;2009年22期
6 刘伟;严华梁;;一种统一的Web新闻对象自动抽取方法[J];计算机工程;2012年11期
7 原福永;韩丽;赵英梅;;社交网络中模块关系树的相似性算法的研究[J];计算机应用研究;2012年02期
8 刘桂峰;李林;崔志明;;一种自动抽取Web数据对象的方法[J];计算机应用与软件;2009年06期
9 王文焕;赵卓峰;;关系数据库的关键词查询性能优化[J];计算机与数字工程;2012年11期
10 赵海霞;李道申;刘勇;赵嘉诚;;一种Deep Web查询结果的实体抽取方法[J];计算机工程与应用;2012年36期
中国博士学位论文全文数据库 前3条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 尹忠刚;用于变频调速装置的三相PWM整流器若干技术问题研究[D];西安理工大学;2009年
3 蒋敬田;基于用户浏览行为的深度网络挖掘[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
2 李巍;企业信息搜索引擎的设计与关键技术的研究[D];内蒙古农业大学;2011年
3 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年
4 郑杰生;基于HMM的网络短评情感信息抽取[D];华南理工大学;2011年
5 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
6 王燕;网站敏感信息监视系统设计与实现[D];解放军信息工程大学;2008年
7 祝美莲;半结构化网页的信息抽取技术研究[D];中国石油大学;2011年
8 李毅;学术主页信息抽取系统的研究[D];华中科技大学;2011年
9 韩丽;社交网络中的信任推荐和好友搜索过滤算法研究[D];燕山大学;2012年
10 钱跃;基于文本挖掘的学者简历自动生成[D];大连理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
2 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
3 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 潘明;陈艺;刘海峰;刘红刚;;农业机械垂直搜索引擎的设计与实现[J];现代农业装备;2007年04期
6 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
7 蔡恩泽;;垂直搜索的精细化功夫[J];互联网天地;2008年08期
8 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
9 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期
10 张玲,黄铁军,高文;基于隐马尔可夫模型的引文信息提取[J];计算机工程;2003年20期
中国硕士学位论文全文数据库 前1条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
2 侯锟;罗海龙;;Web页面表格信息的自主抽取[J];科技广场;2006年04期
3 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究和实现[J];计算机应用与软件;2007年10期
4 王小朋;李义杰;;基于解释学习的包装器生成[J];计算机与数字工程;2006年05期
5 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
6 王磊;蒋建中;郭军利;;基于扩展DOM树的Web页面信息抽取[J];计算机应用与软件;2007年06期
7 任仲晟;薛永生;;基于页面标签的Web结构化数据抽取[J];计算机科学;2007年10期
8 陈洪平;方巍;李林;崔志明;;复杂Web页的Wrapper自动化生成技术研究[J];微电子学与计算机;2010年04期
9 奚伟鹏,李昕,蒋凯,武港山;面向网上论坛的信息抽取技术[J];计算机工程;2005年04期
10 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[J];中文信息学报;2011年01期
中国重要会议论文全文数据库 前10条
1 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
2 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
3 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
5 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
7 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
8 袁冠;夏士雄;张磊;李月娥;肖经验;;基于兴趣度的Web用户聚类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
9 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
10 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国重要报纸全文数据库 前2条
1 邮电数据网络集成开发中心 张颖辉 施海舟;TotalBilling数据业务计费系统(Windows 2000版)[N];计算机世界;2001年
2 ;下一代网络服务管理系统eSM[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
2 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
5 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
6 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
7 何召卫;受限本体相似[D];北京邮电大学;2008年
8 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
9 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
10 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
4 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
5 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
6 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
7 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
8 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 刘洋;Web教学资源抽取技术及其应用研究[D];东北师范大学;2007年
,本文编号:779471
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/779471.html