垂直搜索引擎关键技术研究与实现
发布时间:2017-05-13 02:00
本文关键词:垂直搜索引擎关键技术研究与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的飞速发展,用户对于信息搜索的需求不断提升,特别是在垂直领域对搜索引擎的要求全面提升,主要包括搜索多层排序、智能搜索、关键词联想、信息自动抽取及关键词高亮等几个核心技术。本论文正是针对上述几个核心技术点,以互联网音乐垂直领域搜索应用为主要研究对象,在深入分析当前开源搜索引擎lucene的基础上,结合垂直领域搜索引擎的个性化需求,对垂直领域搜索引擎算法进行了详细的研究和开发,并开发出一个通用的垂直搜索引擎框架。主要内容包括以下几个部分:本文通过研究开源搜索引擎lucene,并对上述核心技术算法重新设计和实现,开发出一套通用的垂直搜索引擎框架。解决搜索结果线性排序方式单一问题。垂直搜索引擎对搜索的结果排序方式要求要比普通的综合搜索引擎高,搜索结果要求更精确,需要按照多种层次进行精确排序,本文实现一种分层排序算法来实现解决目前搜索引擎单层排序问题。解决搜索深度不够问题。目前的搜索一般通过文字内容匹配的方式得到对应的搜索结果,这样的搜索只能做到简单的字符配对。本文通过二维空间得分计算的算法建立智能属性来解决深度搜索问题,实现智能搜索。解决数据智能处理力度不足问题。目前从网页中抽取信息时一般采用编写正则表达式或者配置网页模板的方式进行信息抽取,相对于搜索引擎需要对全网海量的数据进行实时处理,无法依靠人力编写如此之多的正则表达式和模板,本文通过粗糙集算法建立多维约束数据抽取方式实现新闻类网页的内容智能抽取。设计并实现关键词联想算法。目前搜索引擎为了简化用户的输入成本而提供了关键字联想功能。本文设计了一种搜索引擎关键字提示内容生成及更新方法,具有高效的关键词联想效率及多种策略功能。。设计并实现搜索关键词高亮算法。本文旨在设计一种关键信息显示方法,特别对超长文本的关键词高亮显示技术,设计了一种基于哈希查询算法的技术方案来实现关键词的快速高亮显示功能。
【关键词】:搜索引擎 多层排序 智能属性 关键词联想 关键词高亮
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 绪论11-14
- 1.1 垂直搜索引擎技术的发展11
- 1.2 国内外研究现状11-12
- 1.3 本文主要工作12-13
- 1.4 本论文的结构安排13-14
- 第二章 垂直搜索引擎概要设计14-24
- 2.1 设计目标14
- 2.2 设计策略14
- 2.3 系统总体结构14-16
- 2.4 核心模块设计16-24
- 2.4.1 多层排序模型16-17
- 2.4.2 智能属性搜索17-18
- 2.4.3 关键词联想18-19
- 2.4.4 信息自动抽取19-22
- 2.4.5 关键词高亮22-24
- 第三章 垂直搜索引擎核心模块详细设计24-70
- 3.1 多层搜索排序24-29
- 3.1.1 排序策略分层模块24-25
- 3.1.2 分层排序策略组装及结果集块划分模块25-26
- 3.1.3 搜索结果的组装模块26-27
- 3.1.4 实时排序27-29
- 3.1.4.1 实时排序业务量矩阵28
- 3.1.4.2 块内排序28-29
- 3.1.4.3 数据组装模块29
- 3.2 智能属性搜索29-37
- 3.2.1 音乐属性值自动生成及归类29-32
- 3.2.1.1 音乐评论信息结构化29-30
- 3.2.1.2 属性值生成30-32
- 3.2.2 二重维度空间中互相依赖权重得分计算32-36
- 3.2.3 多重属性排序36-37
- 3.3 关键词联想37-44
- 3.3.1 关键字提示内存结构37-38
- 3.3.1.1 数据源对象数据结构37-38
- 3.3.1.2 关键字对象数据结构38
- 3.3.2 关键字提示内容生成38-41
- 3.3.3 关键字提示内容更新41-44
- 3.3.4 关键字查询44
- 3.4 信息自动抽取44-63
- 3.4.1 信息约束集合生成及抽取算法实现44-52
- 3.4.1.1 定义节点分类规则Dividers44-46
- 3.4.1.2 训练生成约束集合46-52
- 3.4.2 信息抽取过程52-63
- 3.4.2.1 信息集合生成52-53
- 3.4.2.2 信息集合划分53-54
- 3.4.2.3 特征值合并54-55
- 3.4.2.4 规则约束55-61
- 3.4.2.5 信息提取61-63
- 3.5 关键词高亮63-70
- 3.5.1 时间复杂度分析63
- 3.5.2 倒排索引内存数据结构63-65
- 3.5.3 关键词信息显示方法与设置技术方案实现65-70
- 3.5.3.1 关键词解析及信息内容解析65-66
- 3.5.3.2 数据加载模块66-67
- 3.5.3.3 内容组装模块67-69
- 3.5.3.4 高亮内容显示69-70
- 第四章 垂直搜索引擎核心模块实施及测试70-75
- 4.1 多层搜索排序70-71
- 4.2 智能属性搜索71-73
- 4.3 搜索引擎关键词联想73-74
- 4.4 搜索引擎关键词高亮74-75
- 第五章 垂直搜索引擎应用75-83
- 5.1 运行环境75-76
- 5.1.1 硬设备75
- 5.1.2 支持软件75-76
- 5.2 使用过程76
- 5.2.1 数据源整合模块76
- 5.2.2 搜索索引模块76
- 5.2.3 搜索接.生成模块76
- 5.2.4 日志监控子系统76
- 5.2.5 系统部署子系统76
- 5.3 配置文件实例76-81
- 5.3.1 索引全配置格式77-80
- 5.3.2 搜索全配置格式80-81
- 5.4 应用场景81-83
- 第六章 总结与展望83-84
- 6.1 总结83
- 6.2 下一步工作的展望83-84
- 致谢84-85
- 参考文献85-87
- 攻硕期间取得的研究成果87-88
【参考文献】
中国期刊全文数据库 前2条
1 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
2 靳小川;刘万军;赵雷;;基于正则表达式的企业主页信息抽取[J];计算机系统应用;2010年08期
中国重要会议论文全文数据库 前1条
1 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
中国硕士学位论文全文数据库 前1条
1 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
本文关键词:垂直搜索引擎关键技术研究与实现,,由笔耕文化传播整理发布。
本文编号:361289
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/361289.html