当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于数据仓库的数据搜索引擎设计与实现

发布时间:2017-04-12 23:09

  本文关键词:基于数据仓库的数据搜索引擎设计与实现,由笔耕文化传播整理发布。


【摘要】:随着信息技术的发展,搜索引擎的应用已经深入到各个领域,成为了人们获取信息的一种最常使用的有效手段。目前市场上比较流行的搜索引擎,如Google、Baidu等,都是面向公众领域的普适化搜索引擎,检索的信息也基本上以网页、博客、文档等非结构化信息为主。对于一般企业来说,信息的结构更多的是结构化数据,存放在数据仓库、ERP、 OA等信息系统中,并且随着信息化水平的不断提高,企业也积累了大量的数据,如何更好的利用这些信息为企业决策提供支持,也是企业面临的痛点。 针对这一广阔的市场,我们结合搜索引擎和数据仓库两大理论特色,设计并实现了构架在数据仓库之上的搜索引擎系统,利用数据仓库的标准化数据模型,结合搜索引擎的特点.系统允许用户使用自然语言进行查询,为企业提供一种信息查询与展现的信息检索新形式,降低了IT系统的技术壁垒,从而促进信息共享和深度挖掘。 本文的主要工作和研究成果包括: 1.针对结构化数据存储,结合数据仓库多维模型,提出语义层的抽象封装方法,规范了数据存储结构; 2.优化搜索引擎的索引结构,使之适合结构化数据查询,并实现基于正则表达式的关键字识别,提高了分词识别精确度; 3.采用中文分词技术并整合IKAnalyzer开源控件实现查询解析,使得用户可以采用自然语言作为查询入口,允许用户直接输入业务短语进行查询,并且结合编译原理技术,实现自然语言分词中的表达式解析,对结构化数据进行条件筛选,自动生成查询SQL语句; 4.针对结构化数据的搜索特点,对搜索结果展现模式进行优化,为用户提供更方便的搜索界面。 该数据仓库搜索引擎系统已在上海烟草集团数据中心的信息服务中得到实际应用,取得了预期的应用效果。
【关键词】:搜索引擎 结构化数据 企业级 数据仓库 多维模型
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP311.13
【目录】:
  • 摘要5-6
  • Abstract6-7
  • 目录7-9
  • 第1章 绪论9-15
  • 1.1 研究背景9-10
  • 1.2 知识领域及相关研究10-13
  • 1.2.1 数据仓库10-11
  • 1.2.2 搜索引擎11-12
  • 1.2.3 NLU、中文分词及IKAnalyzer12-13
  • 1.3 本研究的目的和意义13
  • 1.4 主要研究工作13-14
  • 1.5 论文结构14-15
  • 第2章 DWSE的系统设计15-21
  • 2.1 设计目标15
  • 2.2 系统架构15-17
  • 2.2.1 展现层16
  • 2.2.2 控制层16-17
  • 2.2.3 数据层17
  • 2.3 软硬件架构17-18
  • 2.4 主要外部模块结构18
  • 2.5 系统使用入口18-20
  • 2.6 信息来源的选择20-21
  • 第3章 DWSE的核心算法实现21-55
  • 3.1 总体技术特点21-23
  • 3.2 语义层实现23-39
  • 3.2.1 数据单元23-24
  • 3.2.2 多维模型24-30
  • 3.2.3 语义层存储30-39
  • 3.3 数据索引实现39-42
  • 3.3.1 索引的类型39-41
  • 3.3.2 索引Java类实现41
  • 3.3.3 索引更新机制41-42
  • 3.4 解析过程42-47
  • 3.4.1 解析流程42-44
  • 3.4.2 解析Java类实现44-45
  • 3.4.3 解析过程的算法调用45-47
  • 3.5 展现模式优化47-52
  • 3.5.1 自动补全48-49
  • 3.5.2 拼音及缩写转换49
  • 3.5.3 最佳答案49-50
  • 3.5.4 分页筛选50-51
  • 3.5.5 搜索结果集成展现51
  • 3.5.6 数据交互51-52
  • 3.6 程序框架总览52-55
  • 第4章 DWSE的应用实例55-69
  • 4.1 DWSE在烟草等行业的应用55-57
  • 4.2 DWSE所带来的展现优化效果57-58
  • 4.3 常见搜索语句58
  • 4.4 实际查询案例解析过程58-69
  • 4.4.1 示例数据59-60
  • 4.4.2 测试用例160-65
  • 4.4.3 测试用例265-69
  • 第5章 结束语69-71
  • 5.1 总结69
  • 5.2 下一步工作69-71
  • 参考文献71-74
  • 致谢74

【参考文献】

中国期刊全文数据库 前2条

1 沈军;一个面向受限领域的汉语人机接口系统[J];东南大学学报;1996年05期

2 林鸿飞,战学刚,姚天顺;文本结构分析与基于示例的文本过滤[J];小型微型计算机系统;2000年04期


  本文关键词:基于数据仓库的数据搜索引擎设计与实现,由笔耕文化传播整理发布。



本文编号:302261

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/302261.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a6778***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com