基于DOM树的电子商务网站信息抽取技术研究
本文关键词:基于DOM树的电子商务网站信息抽取技术研究
更多相关文章: 电子商务网站 DOM树 关键词组 信息抽取 可适应性
【摘要】:随着互联网的日渐普及与发展,网络信息日益增多,大量无关信息存储在网络大环境中,完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加,怎样从繁多的信息中找到对自己有价值的信息,满足自身的信息需求,逐渐成为当前研究的热门课题。信息抽取正是解决当前问题的一种有效方法,目前,一些抽取工具已经在日常生活当中得到了实际应用,信息抽取技术也在发现问题解决问题的过程中不断优化完善。现在信息量的爆炸式增长主要是因为互联网的不断发展与成熟,由于网上信息资源的差异性和组织分散性,使得大量的查阅和提取互联网上的信息受到一定程度的限制,web信息抽取技术的理想效果是能够自动地将网页包含的信息转化为具有一定语义的结构化数据。本文采用web信息抽取技术来对用户感兴趣的信息项进行提取,构建信息抽取模型,设计信息抽取系统完成对网页信息的抽取。 本文的抽取信息源来自电子商务网页,以某类商品作为数据源,来设计本文的Web信息抽取系统。首先说明本课题的当前研究现状,从现状分析研究的不足之处,从而引出本课题的研究意义之所在。同时对电子商务网站、DOM、信息抽取的知识进行了简单概述;然后根据电子商务网站的结构特征,将DOM引入到Web信息抽取技术中,使得本文抽取算法的实现成为可能。论文研究重点是设计适用于抽取电子商务网站某类产品信息的抽取模块。首先对于一定量的同类商品网页通过聚类方法找到关键词组(我们要抽取的商品信息项),然后结合DOM树的可操作性,通过Web信息抽取算法实现对商品网页信息的抽取。其次,对提取关键词组和信息抽取模块的设计进行了重点的研究。最后,实现了界面简单且容易上手,用户体验效果较佳的信息抽取系统,对电子商务站点进行信息抽取,,从中可以清楚的看到商品信息项的结构化数据。 将基于DOM树的信息抽取方法与其他方法相比,理论上精确商品关键词组可以提高信息抽取查准率,论文的研究有助于信息抽取的可适应性以及查准查全率的提高,具有一定的实际意义。
【关键词】:电子商务网站 DOM树 关键词组 信息抽取 可适应性
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【目录】:
- 摘要7-8
- ABSTRACT8-10
- 第一章 绪论10-13
- 1.1 课题研究的背景与意义10
- 1.2 国内外的研究现状与发展趋势10-11
- 1.3 论文组织结构11-13
- 第二章 相关理论与技术13-29
- 2.1 HTML13-14
- 2.2 XML14-15
- 2.3 DOM介绍15-21
- 2.3.1 DOM概述15
- 2.3.2 DOM的内部逻辑结构15-16
- 2.3.3 DOM的基本接口16-18
- 2.3.4 H T ML 、 X ML 文档解析成 DOM树18
- 2.3.5 DOM文档的遍历18-20
- 2.3.6 文档对象模型中文本节点的处理20
- 2.3.7 DOM文档节点属性的处理20
- 2.3.8 节点的处理20-21
- 2.3.9 文档对象的序列化21
- 2.4 电子商务网站的概述21-23
- 2.4.1 电子商务网站的概念21
- 2.4.2 电子商务网站建立的作用21-22
- 2.4.3 电子商务网站的分类22-23
- 2.5 信息抽取23-27
- 2.5.1 信息抽取的概述23
- 2.5.2 信息抽取的关键技术23-24
- 2.5.3 Web 信息抽取的概念24-25
- 2.5.4 Web 信息抽取方法分析25-26
- 2.5.5 目前的 We b 信息抽取存在的问题26-27
- 2.6 网页抓取工具27
- 2.7 本章小结27-29
- 第三章 电子商务网站商品关键词组的构建29-35
- 3.1 关键词聚类29
- 3.2 确定商品的关键词组29-31
- 3.2.1 确定商品关键词组的步骤29-30
- 3.2.2 确定商品关键词组的算法30-31
- 3.3 利用关键词聚类方法获得商品关键词组实例分析31-32
- 3.4 商品关键词组的后期维护32-34
- 3.5 本章小结34-35
- 第四章 基于 DOM 树的电子商务网站信息抽取算法35-40
- 4.1 基于 DOM 树的信息抽取方法35-36
- 4.2 基于 DOM 树的多信息块信息抽取算法36-38
- 4.3 基于 DOM 树的多信息块信息抽取算法分析38
- 4.3.1 算法复杂度38
- 4.3.2 可适应性38
- 4.4 本章小结38-40
- 第五章 基于 D O M 树的电子商务网站信息抽取系统40-52
- 5.1 信息抽取系统整体流程图40-41
- 5.2 信息抽取系统设计41-42
- 5.2.1 系统模块开发工具41-42
- 5.2.2 系统开发技术42
- 5.3 系统模块实现42-48
- 5.3.1 网页数据源的获取42-44
- 5.3.2 信息抽取模块44-47
- 5.3.3 抽取结果的存储47-48
- 5.4 系统设计48-49
- 5.4.1 设计原则48
- 5.4.2 系统界面48-49
- 5.5 信息抽取系统性能评价49-51
- 5.5.1 信息抽取系统评价标准49-50
- 5.5.2 试验结果分析50-51
- 5.6 本章小结51-52
- 第六章 总结与展望52-54
- 参考文献54-57
- 攻读硕士学位期间发表的论文和参与的项目57-58
- 致谢58
【参考文献】
中国期刊全文数据库 前10条
1 李卫东;;基于DOM的半结构化网页信息抽取算法[J];河北省科学院学报;2009年01期
2 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 邓健爽;郑启伦;彭宏;林旭东;;基于关键词聚类和节点距离的网页信息抽取[J];计算机科学;2007年04期
6 李朝;彭宏;叶苏南;张欢;杨亲遥;;基于DOM树的可适应性Web信息抽取[J];计算机科学;2009年07期
7 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期
8 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
9 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
10 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
中国博士学位论文全文数据库 前1条
1 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前2条
1 赖春波;Web信息自动抽取技术研究[D];浙江大学;2008年
2 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
本文编号:886749
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/886749.html