基于图结构的多关键字查询技术研究
本文关键词:基于图结构的多关键字查询技术研究
【摘要】:近十几年来,由于互联网的快速发展,网上的信息呈爆炸式的增长,如何在如此巨大的数据中找出我们所感兴趣的信息便成了迫不及待需要解决的问题。在这种情况下,搜索引擎应运而生。而关键字查询是搜索引擎中最常用的一种机制。本文首先讨论了图数据的存储及处理,包括运用开源框架Neo4j图数据库进行数据的存储,运用K2树来存储图的邻接矩阵,以及基于r半径对大数据图进行划分,之后基于K-means对子图进行聚类等操作。其次,对处理好的子图的文本信息进行分词、去停用词,提取特征,根据排序函数对其进行打分后,构建倒排索引。本文使用simhash对倒排索引表进行hash处理,映射成多个索引表,并且运用LDA(Latent Dirichlet Allocation)主题模型对查询所得结果进行关于主题的过滤,使得结果更贴合用户的查询需求。本论文的主要贡献在于:第一,提出了一种文本与结构相结合的图相似性计算方法,充分考虑了不同节点的文本之间的相似性,使得图相似性计算更加的合理准确;第二,运用simhash对倒排表进行哈希操作,以减少用户查询时比对的次数和时间,提高效率;第三,提出使用LDA模型对初步查询结果进行过滤,获得更符合用户查询意图的结果。实验表明本系统可以使用户快速地通过关键字查询到想要的信息,并且得到的结果更符合用户的查询本意。
【关键词】:图 关键字查询 哈希 索引 LDA模型
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- abstract5-8
- 第一章 绪论8-11
- 1.1 研究背景和意义8-9
- 1.2 论文的主要研究内容9
- 1.3 论文的结构安排9-11
- 第二章 相关背景知识介绍11-21
- 2.1 关系数据库上关键字查询11-12
- 2.2 图上关键字查询12-18
- 2.2.1 基于动态规划的图上关键字查询12-13
- 2.2.2 基于r半径Steiner图的图上关键字查询13-15
- 2.2.3 基于反向搜索的图上关键字查询15-17
- 2.2.4 基于双向搜索的图上关键字查询17-18
- 2.3 LDA模型简介18-20
- 2.4 本章小结20-21
- 第三章 图数据的存储及处理21-33
- 3.1 图数据的存储21-26
- 3.1.1 图数据库Neo4j21-23
- 3.1.2 基于K2树的图邻接矩阵存储23-26
- 3.2 图划分26-28
- 3.2.1 基于r半径的数据图划分26-28
- 3.3 图聚类28-32
- 3.3.1 基于文本和结构相结合的图相似性计算29-30
- 3.3.2 基于K-means算法聚类子图30-32
- 3.4 本章小结32-33
- 第四章 索引及查询33-44
- 4.1 特征提取33-34
- 4.1.1 文本分词及去停用词33
- 4.1.2 特征选取33-34
- 4.2 倒排索引34-38
- 4.2.1 传统的倒排索引34-36
- 4.2.2 基于simhash的倒排索引36-38
- 4.3 排序函数38-41
- 4.3.1 TF-IDF39-40
- 4.3.2 基于内容和结构混合的排序40-41
- 4.4 基于LDA模型的查询结果过滤41-43
- 4.5 本章小结43-44
- 第五章 实验与分析44-55
- 5.1 原型系统的设计44-45
- 5.1.1 系统设计目标44
- 5.1.2 系统框架设计44-45
- 5.2 系统实现45-50
- 5.2.1 系统开发工具45
- 5.2.2 主要模块设计45-50
- 5.3 实验分析50-54
- 5.3.1 实验数据50
- 5.3.2 实验评估标准50
- 5.3.3 效率对比50-52
- 5.3.4 准确率52-54
- 5.4 本章小结54-55
- 第六章 总结与展望55-57
- 6.1 工作总结55
- 6.2 展望55-57
- 参考文献57-60
- 附录1 攻读硕士学位期间撰写的论文60-61
- 附录2 攻读硕士学位期间参加的科研项目61-62
- 致谢62
【相似文献】
中国期刊全文数据库 前10条
1 王焕景;李明;;“关键字查询”教学设计[J];中国教育技术装备;2007年12期
2 宋玉玲;王宁;;利用实体语义信息的关键字查询结果多样化[J];计算机科学与探索;2014年03期
3 陈子军;周同;刘文远;;面向集合和方向的空间关键字查询[J];小型微型计算机系统;2014年05期
4 任建华;周建;孟祥福;魏珂;;基于关键字之间结构关系的XML查询结果排序方法[J];计算机科学;2013年06期
5 黄静;陆嘉恒;孟小峰;;高效的XML关键字查询改写和结果生成技术[J];计算机研究与发展;2010年05期
6 王金宝;高宏;李建中;杨东华;;RB树:一种支持空间近似关键字查询的外存索引[J];计算机研究与发展;2012年10期
7 周军锋;孟小峰;;XML关键字查询处理研究[J];计算机学报;2012年12期
8 吴海涛;;一种改进的XML关键字查询算法[J];南京工程学院学报(自然科学版);2011年02期
9 李艳红;李国徽;张聪;;路网中空间关键字连续k近邻查询算法研究[J];华中科技大学学报(自然科学版);2013年12期
10 刘琰;周理;;基于VLCA的关键字查询匹配算法[J];科学技术与工程;2008年02期
中国重要会议论文全文数据库 前5条
1 谢涛;王晓玲;欧阳树生;周傲英;;XML关键字检索的最低公共祖先快速查找方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 黄静;陆嘉恒;孟小峰;;高效的XML关键字查询改写和结果生成技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 方非;朱皓;杨卫东;;基于结构摘要的XML关键字检索[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 黄静;徐俊劲;周军锋;孟小峰;;MLCEA:一种基于实体的XML关键字查询语义[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 王小锋;张新;谢敏;孟小峰;周军锋;;XML数据流上的关键字查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前1条
1 张晨静;XML关键字过滤技术[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 张丹婷;基于事前约束的XML关键字查询处理研究[D];燕山大学;2015年
2 林健;云环境下支持隐私保护的动态模糊多关键字排列查询方法研究[D];东北大学;2014年
3 张舒;基于r-clique的不确定RDF关键字查询研究[D];东北大学;2014年
4 崔清娟;已知社交的Top-k空间关键字查询[D];燕山大学;2016年
5 方海林;面向LBS的近邻及反近邻空间关键字查询研究[D];苏州大学;2016年
6 杨韵硕;模糊关键字可搜索加密算法的研究与实现[D];电子科技大学;2016年
7 张宇晨;基于图结构的多关键字查询技术研究[D];南京邮电大学;2016年
8 李赫;个人数据空间管理系统关键字查询的研究与实现[D];北京交通大学;2012年
9 周月;关键字查询性能优化研究[D];天津大学;2012年
10 付颜胜;面向集合的空间关键字查询方法研究[D];燕山大学;2012年
,本文编号:531603
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/531603.html