基于Web的实体信息提取和搜索研究
发布时间:2017-09-27 11:46
本文关键词:基于Web的实体信息提取和搜索研究
【摘要】:随着互联网的迅速发展,互联网中的数据呈爆炸式的增长,因此高效的信息检索技术对于帮助用户获取有用的信息具有重要的意义。目前搜索引擎技术已经取得了很大的进步,能够基本满足用户对信息检索的需求。但是目前搜索引擎技术大部分是基于页面层的搜索,该技术存在固有的缺陷,查询结果是以网页链接的形式返回给用户,用户需要自己寻找信息所在的网页。但是在很多情况下,用户搜索的目标是实体信息,如论文、地名、商品信息等。本文针对实体层的搜索技术进行了研究,在已有的研究成果的基础上,提出了一些新的解决方法。本文的主要工作包括:1、提出了一种基于链接模版树的垂直爬虫技术,通过对目标网站链接进行分析,使用链接模版来归纳需要下载的链接,构建正则链接树来导航爬虫的下载路径,解决了网页中存在的隧道问题。实验中,在开源爬虫Nutch的基础上,以插件的形式实现本文提出的爬虫算法,经过比较,本文提出的方法能够取得较好的召回率和效率。2、提出了一种基于DOM树和XSL的实体信息抽取方法。首先对下载的Web页面进行预处理,通过训练数据提取出网页中实体信息所在的路径规则,然后通过XSL将Web页面中的实体信息转换为XML文件。也对页面中出现多实体提取的情况,提出了相应的解决方案。在单实体提取方法的基础上,先提取页面中的最大数据子树,然后在最大数据子树中提取多实体规则,来实现多实体信息的提取。实验结果表明,本文提出的实体信息提取方法能够有效地提取实体信息。3、提出了适用于实体的索引结构,并对Lucene的评分算法进行了改进。通过对开源全文索引开发包Lucene架构和代码的分析,在文档索引结构的基础上,提出了适用于实体信息的索引结构。对于搜索结果的排序方面,本文对Lucene评分机制进行了改进:计算出实体数据中词语的IDF值,建立实体数据的IDF值数据库;查询过程中,通过词语的IDF值来设定查询语句中不同词语的重要程度,再计算每个实体获得的评分,最后排序输出。通过实验表明,该方法能够获得更好的返回结果。
【关键词】:搜索引擎 垂直爬虫 实体信息抽取 实体搜索
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-20
- 1.1 研究工作的背景与意义11-12
- 1.2 搜索引擎的研究现状12-17
- 1.2.1 传统的搜索引擎技术12-14
- 1.2.2 基于Web的实体搜索研究现状14-17
- 1.2.3 搜索引擎技术存在的问题17
- 1.3 论文主要研究内容17-18
- 1.4 论文的结构安排18-20
- 第二章 基于WEB的实体搜索相关技术20-35
- 2.1 Web实体搜索引擎的体系结构20-21
- 2.2 垂直爬虫技术21-22
- 2.3 Web实体信息抽取技术22-32
- 2.3.1 Web网页结构22-23
- 2.3.2 信息抽取技术23-26
- 2.3.3 Web信息抽取技术26-32
- 2.4 信息检索模型32-34
- 2.5 本章小结34-35
- 第三章 基于链接模版树的垂直爬虫35-49
- 3.1 开源网络爬虫Nutch35-38
- 3.1.1 Nutch的运行流程35-36
- 3.1.2 Nutch插件机制36-38
- 3.2 网页隧道特征38-39
- 3.3 基于链接模版树的垂直爬虫39-44
- 3.3.1 目标网页链接树40-41
- 3.3.2 抽取链接模版41-43
- 3.3.3 基于链接模版树的爬虫43-44
- 3.4 实验与分析44-48
- 3.4.1 召回率实验44-45
- 3.4.2 对比实验45-48
- 3.5 本章小结48-49
- 第四章 基于DOM树和XSL的WEB实体信息抽取49-65
- 4.1 相关技术49-50
- 4.1.1 XSL49
- 4.1.2 XPath49-50
- 4.1.3 XML50
- 4.2 目前Web信息提取方法的缺点50-52
- 4.3 基于DOM树和XSL的实体信息抽取52-57
- 4.3.1 Web页面预处理52-53
- 4.3.2 XML文档解析53
- 4.3.3 路径规则提取53-55
- 4.3.4 XSL转换55-56
- 4.3.5 整体抽取过程描述56-57
- 4.4 网页中多实体信息提取57-61
- 4.4.1 提取最大数据子树58-59
- 4.4.2 提取多实体规则59-61
- 4.5 实验与分析61-64
- 4.6 本章小结64-65
- 第五章 基于LUCENE的实体索引和搜索65-80
- 5.1 构建实体索引65-70
- 5.1.1 Lucene分析和研究66-69
- 5.1.2 实体索引结构69-70
- 5.2 实体检索结果排序70-74
- 5.2.1 Lucene评分机制70-72
- 5.2.2 Lucene评分改进72-74
- 5.3 实验与分析74-79
- 5.3.1 数据集74-75
- 5.3.2 评价指标75
- 5.3.3 实验及结果75-77
- 5.3.4 实验演示77-79
- 5.4 本章小结79-80
- 第六章 总结与展望80-82
- 致谢82-83
- 参考文献83-87
- 在学期间的研究成果87-88
【参考文献】
中国期刊全文数据库 前1条
1 王志华;魏斌;李占波;赵伟;;基于本体的Web信息抽取系统[J];计算机工程与设计;2012年07期
中国硕士学位论文全文数据库 前1条
1 王元龙;基于DOM和本体的Web信息抽取方法研究[D];辽宁大学;2012年
,本文编号:929518
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/929518.html