基于XML和DOM技术的Web信息抽取模型
本文选题:信息抽取 + XML技术 ; 参考:《大连交通大学学报》2013年03期
【摘要】:将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化.
[Abstract]:Applying XML technology to search engine, a Web information extraction model based on XML and DOM technology is proposed. The four stages of model data collection, page optimization, extraction rule generation and information extraction are analyzed in detail. This paper discusses the application of web crawler Neko HTML Xerces-JnJTreeXpath and XSLT technology in Web information extraction, and realizes the semi-automation of Web information extraction.
【作者单位】: 大连交通大学软件学院;
【基金】:武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-9-27) 四川省重点实验基金资助项目(GK201202) 广西混杂计算与集成电路设计分析重点实验室基金资助项目
【分类号】:TP393.09
【参考文献】
相关期刊论文 前5条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 贺智平;徐学洲;李爱玲;;一种基于信息熵的Web页面主题信息抽取方法[J];计算机工程与应用;2007年04期
3 冀高峰;汤庸;道炜;吴桂宾;黄帆;王鹏;;基于XML的自动学习Web信息抽取[J];计算机科学;2008年03期
4 陈佳;胡燕;轩艳艳;;一种基于XML的Web信息抽取方法[J];计算机与数字工程;2007年06期
5 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期
【共引文献】
相关期刊论文 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
4 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
5 程渤,浮花玲,杨国纬;基于工作流及集成中间件技术的电力信息一体化设计及实现[J];电力系统自动化;2004年19期
6 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
7 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
8 张海强,张永;网络用法挖掘及其应用[J];兰州理工大学学报;2004年05期
9 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
10 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
相关会议论文 前3条
1 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 杨建武;陈晓鸥;;半结构化文档集的结构化处理及其Web发布[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
相关博士学位论文 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
10 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年
相关硕士学位论文 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
6 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
7 余t煼,
本文编号:1911243
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1911243.html