面向电子商务网站的深度搜索与信息抽取研究
发布时间:2017-03-26 14:09
本文关键词:面向电子商务网站的深度搜索与信息抽取研究,,由笔耕文化传播整理发布。
【摘要】:随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于Deep Web,Deep Web指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对Deep Web进行搜索。Deep Web不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。 通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。 本文的主要内容及创新点如下: 1、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的目的。 2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。 3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更多更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。 4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。
【关键词】:深度搜索 Deep Web Web信息抽取 URL提取 正则表达式
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092
【目录】:
- 摘要3-5
- Abstract5-9
- 第1章 绪论9-12
- 1.1 课题的研究背景及意义9-10
- 1.2 本文主要内容10-11
- 1.3 论文组织结构11-12
- 第2章 深度搜索相关研究综述12-19
- 2.1 搜索引擎研究综述12-15
- 2.1.1 搜索引擎的概念12
- 2.1.2 搜索引擎的工作原理12-13
- 2.1.3 搜索引擎的分类13-15
- 2.2 深度搜索研究综述15-18
- 2.2.1 Deep Web 概述15-16
- 2.2.2 深度搜索的方法16-17
- 2.2.3 深度搜索的工作原理17-18
- 2.3 本章小结18-19
- 第3章 Web 信息抽取研究综述19-29
- 3.1 Web 信息抽取的概念19
- 3.2 Web 信息抽取研究发展现状19-20
- 3.3 Web 信息抽取的方法20-23
- 3.3.1 Web 信息源20-21
- 3.3.2 结构化数据提取21
- 3.3.3 半结构化数据提取21-23
- 3.3.4 非结构化数据提取23
- 3.4 Web 信息抽取存在的问题23-24
- 3.5 Web 信息抽取工具MetaSeeker24-27
- 3.5.1 MetaSeeker 简介24-25
- 3.5.2 MetaSeeker 的应用25-26
- 3.5.3 MetaSeeker 的优势与局限性26-27
- 3.6 本章小结27-29
- 第4章 深度搜索与信息抽取系统29-53
- 4.1 设计目标与思路29-31
- 4.1.1 系统的目标29-30
- 4.1.2 设计的基本思路30-31
- 4.2 系统的整体框架31-33
- 4.3 关键词库接口设计33-36
- 4.3.1 关键词库接口33-34
- 4.3.2 关键词库接口的增量更新设计34-36
- 4.4 查询表单的处理36-40
- 4.4.1 识别查询表单36-38
- 4.4.2 表单的自动填充与提交38-40
- 4.5 URL 提取40-45
- 4.5.1 起始页面中链接的提取40-42
- 4.5.2 “下一页”链接的获取策略42-44
- 4.5.3 URL 的整理44-45
- 4.6 信息抽取45-52
- 4.6.1 获取网页源码45-46
- 4.6.2 利用正则表达式编写抽取规则46-50
- 4.6.3 保存抽取结果50-52
- 4.7 本章小结52-53
- 第5章 深度搜索与信息抽取系统评测53-57
- 5.1 实验评测标准53-54
- 5.2 实验结果分析54-56
- 5.3 本章小结56-57
- 第6章 总结与展望57-59
- 参考文献59-62
- 致谢62-63
- 在读期间公开发表论文(著)及科研情况63
【引证文献】
中国硕士学位论文全文数据库 前1条
1 梅泽勇;图书网站信息集成系统的构建[D];郑州大学;2012年
本文关键词:面向电子商务网站的深度搜索与信息抽取研究,由笔耕文化传播整理发布。
本文编号:268906
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/268906.html