基于维基歧义页的搜索结果聚类方法研究
发布时间:2017-04-28 03:03
本文关键词:基于维基歧义页的搜索结果聚类方法研究,由笔耕文化传播整理发布。
【摘要】:近些年来,随着互联网的快速发展,“信息过载”问题日益凸显,如何从海量信息中快速准确地检索到用户需要的信息成为信息检索领域新的挑战。搜索引擎可以帮助用户以关键字查询的形式检索整个网络,然而,由于查询词通常是单个字或简单的短语,缺少上下文可能导致关键字本身是歧义的,即包含多个方面的主题。对搜索结果进行按主题聚类可以进一步消除查询的歧义性,从而帮助用户快速找到歧义查询的特定主题所对应的结果。本文研究搜索结果聚类及相关技术的发展现状,并针对Web歧义查询问题提出一种基于维基歧义页的搜索结果聚类方法。给定一个歧义查询,该方法主要通过两个步骤对搜索结果进行聚类:1)从维基歧义页构造出关于查询的分类结构,即查询的主题目录以及各个主题包含的概念词。为了提高概念词对对应主题的语义描述能力,文章提出一种概念词过滤算法,利用概念词与主题和查询之间的相似度来过滤语义不相关的概念词;2)将搜索结果匹配到对应的主题中。文章提出TKFR(Top K Full Relations)算法将搜索结果分配到与其最相似的主题中,该算法可以在搜索结果信息和主题信息都稀少的前提下,计算搜索结果和主题之间的相似度并取得较好效果。实验结果表明,本文提出的方法提高了基于公开分类体系(如维基歧义页)的搜索结果聚类方法的效果,并且对于不同长度的歧义查询均有很好的适用性。此外,由于利用公开分类体系能够获得稳定、统一且具有强可读性的主题目录,因此该方法可以提高用户歧义查询的检索效率。
【关键词】:歧义查询 搜索结果聚类 维基歧义页 概念过滤
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-18
- 1.1 本文的研究背景9-10
- 1.2 本文的研究意义10-12
- 1.3 国内外研究现状概述12-14
- 1.4 主要难点及面临的挑战14-15
- 1.5 本文的主要工作15-16
- 1.6 本文结构16-18
- 第2章 相关研究综述18-30
- 2.1 文档相似度计算的研究进展18-20
- 2.1.1 基于相同单词统计的相似度计算18
- 2.1.2 基于文档表示模型的相似度计算18-20
- 2.1.3 基于单词向量模型的相似度计算20
- 2.2 文档聚类方法的研究进展20-24
- 2.2.1 基于凝聚算法的聚类方法20-22
- 2.2.2 基于K-means的递归聚类方法22
- 2.2.3 基于文档和项的关联度的聚类方法22-24
- 2.2.4 基于词义归纳的聚类方法24
- 2.2.5 基于词义消歧的方法24
- 2.3 主题词提取方法的研究进展24-26
- 2.3.1 基于概念词权重的主题词提取方法25
- 2.3.2 基于词义归纳的主题词提取方法25-26
- 2.4 本文使用的相似度计算方法26-28
- 2.5 本文使用的主题词获取和文档聚类方法28-29
- 2.6 本章小结29-30
- 第3章 基于维基歧义页的搜索结果聚类算法30-37
- 3.1 问题公式化30-31
- 3.2 构建主题概念词31-35
- 3.2.1 清洗主题描述信息31-32
- 3.2.2 对概念词的语义过滤32-35
- 3.3 查询结果匹配35-36
- 3.4 本章小结36-37
- 第4章 算法实现难点及解决方案37-47
- 4.1 使用单词向量模型的问题37-41
- 4.1.1 向量模型太大引发的问题37-38
- 4.1.2 对无对应向量的概念词的处理38-41
- 4.2 聚类算法最优参数的获取41-46
- 4.2.1 参数调整数据集41
- 4.2.2 参数优化目标41-42
- 4.2.3 参数优化算法42-44
- 4.2.4 参数优化结果及分析44-46
- 4.3 本章小结46-47
- 第5章 实验与结果47-59
- 5.1 CWD算法在AMBIENT数据集上的实验结果47-52
- 5.1.1 AMBIENT数据集描述47-49
- 5.1.2 实验结果及分析49-52
- 5.2 CWD算法在MORESQUE上的实验结果52-56
- 5.2.1 MORESQUE数据集描述52-53
- 5.2.2 实验结果及分析53-56
- 5.3 CWD算法在不同数据集上结果对比56
- 5.4 CWD在同其他聚类算法的比较56-58
- 5.5 本章小结58-59
- 第6章 总结与展望59-61
- 6.1 研究工作总结59-60
- 6.2 工作展望60-61
- 参考文献61-64
- 攻读学位期间发表论文与研究成果清单64-65
- 致谢65
【共引文献】
中国期刊全文数据库 前5条
1 孙玉霞;曲维光;狄颖;周俊生;;词义归纳综述[J];计算机科学;2014年02期
2 宋国平;韩啸;王井丰;;一种基于上下文规则的词义消歧算法[J];吉林大学学报(理学版);2014年02期
3 韩普;王东波;路高飞;苏新宁;;语言网络研究进展[J];中文信息学报;2014年01期
4 车超;郑晓军;;基于语义关联图的词义消歧方法[J];科研信息化技术与应用;2014年04期
5 张健立;;一种基于语义关系图的词义消歧算法[J];科技通报;2015年03期
中国硕士学位论文全文数据库 前4条
1 孙玉霞;中文词义归纳研究[D];南京师范大学;2013年
2 高宁宁;基于混合特征和规则的词义消歧研究[D];吉林大学;2014年
3 张勇;新闻类信息的组织和话题监控[D];北京邮电大学;2014年
4 蔡智源;基于维基链接共现的短语消歧[D];上海交通大学;2014年
本文关键词:基于维基歧义页的搜索结果聚类方法研究,,由笔耕文化传播整理发布。
本文编号:331962
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/331962.html