基于用户反馈的数据库关键字检索技术研究
发布时间:2017-05-10 18:06
本文关键词:基于用户反馈的数据库关键字检索技术研究,由笔耕文化传播整理发布。
【摘要】:在Web和企业中大量存在着半结构化和结构化的数据,而且这些数据随着时间的推移急剧增长,随之而来的就是用户对这些数据的查询需求的增长。传统来说,用户访问结构化数据,就需要学习结构化查询语言的基础语法规则和数据库的基础知识,并需要对数据的模式有一个清晰的认知;对于每次的查询,用户都需要重新设定查询条件,并重写查询语句。即使传统的结构化查询方式能够给出较为精确的查询结果,对于普通用户来说,这种方式是难以掌握的,因此为普通用户查询信息带来了很大的不便。 Internet的发展导致越来越多的普通用户在线访问数据库,传统的数据库查询方法已经不能满足用户需求,数据库关键字查询顺势而生。数据库关键字查询将数据库技术和关键字查询技术结合起来,使得用户可以就像使用Web搜索引擎-样,输入一组关键字描述查询需求,系统根据关键字按照一定的方法查询数据库中与关键字相关的信息,并将查询结果按照一定规则排序后返回给用户。数据库关键字查询使得用户不必理解数据库的模式,也无需学习查询语言,只需关心如何使用关键字表达所需信息。 在数据库关键字查询的研究中,主要有两种建模方法:基于数据图的查询方法和基于模式图的查询方法。在基于模式图的查询方法的研究中,很多工作都是通过设计更好的打分函数对查询结果进行排序,从而提高查询结果的质量。但是,很少有人在排序时考虑用户反馈。在Web信息检索的研究中,已经有大量的工作研究如何使用用户反馈提高用户体验。我们的工作是引入用户反馈,在对查询结果进行排序时,使用反馈信息提高查询结果的质量。具体来说,我们的工作是基于模式图的查询方法。在基于模式图的查询方法分两个阶段执行关键字查询:候选网络生成和候选网络求解。在传统的方法中,按照候选网络从小到大的顺序进行求解,并没有考虑过用户偏好。所以,为了能够只返回给用户较为偏好的结果,我们引入用户反馈,扩展原有的函数,提出一个新的候选网络排序策略。查询日志作为一种用户反馈,隐含用户偏好的频繁模式,使用树挖掘算法,获得频繁模式,以此为基础计算候选网络的基于日志的分数,最后将日志分数和基于大小的原有的分数加权得到候选网络的最终分数;在每个生成的候选网络都打分完成后,就能根据分数,对候选网络进行排序,按照从大到小的顺序。这样就能够首先求解用户偏好的结构,从而改善查询质量。我们给出了两个算法计算一个候选网络的最大分数,即动态规划算法和贪心算法,并证明了计算最大分数是NP-困难的。
【关键词】:关键字查询 模式图 候选网络 查询日志
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
- TABLE OF CONTENTS6-8
- 摘要8-10
- ABSTRACT10-12
- 第1章 绪论12-17
- 1.1 研究背景12-13
- 1.2 研究现状13-15
- 1.3 本文工作15-16
- 1.4 文章组织结构16-17
- 第2章 基于模式图的关键字查询概述17-29
- 2.1 基本框架17-19
- 2.1.1 数据模型和关键字查询17-18
- 2.1.2 查询系统基本架构18-19
- 2.2 查询阶段19-23
- 2.2.1 候选网络生成19-21
- 2.2.2 候选网络求解21-23
- 2.3 其他关键字查询语义23-24
- 2.3.1 不同根语义23-24
- 2.3.2 不同核心语义24
- 2.4 基于数据图的关键字查询24-26
- 2.4.1 基于树语义的关键字查询25-26
- 2.4.2 基于子图的关键字查询26
- 2.5 其他研究方向26-28
- 2.6 本章小结28-29
- 第3章 基于用户日志的关键字查询29-43
- 3.1 引言29-31
- 3.2 相关工作31-32
- 3.3 基本概念32-35
- 3.4 基于用户日志的候选网络排序35-38
- 3.4.1 初始方法35-36
- 3.4.2 排序策略36-38
- 3.5 复杂性问题38-42
- 3.5.1 动态规划算法40-41
- 3.5.2 贪心算法41-42
- 3.6 本章小结42-43
- 第4章 实验及分析43-51
- 4.1 数据集和实验设置43-44
- 4.2 实验结果44-50
- 4.2.1 效果分析44-48
- 4.2.2 效率分析48-50
- 4.3 本章小结50-51
- 第5章 总结与展望51-53
- 5.1 总结51-52
- 5.2 未来的工作52-53
- 参考文献53-57
- 致谢57-58
- 攻读学位期间发表的学术论文目录58-59
- 攻读学位期间参与科研项目情况59-60
- 学位论文评阅及答辩情况表60
本文关键词:基于用户反馈的数据库关键字检索技术研究,,由笔耕文化传播整理发布。
本文编号:355273
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/355273.html