基于主题模型的检索结果聚类应用研究
本文关键词:基于主题模型的检索结果聚类应用研究
更多相关文章: LDA 检索结果聚类 聚类标签 概率分布 语义挖掘 K-means
【摘要】:[目的/意义]检索结果聚类能够帮助用户快速地浏览系统返回的检索结果。传统的基于向量空间的检索结果聚类缺乏对文本深层次的语义联系的挖掘,使得聚类结果的可读性、可理解性存在不足。因此,对检索结果进行语义层面的分析,并实现基于语义的检索结果聚类研究,具有重要的理论和实践意义。[方法/过程]将LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,将"文本-潜在主题"概率分布作为Kmeans聚类依据进行聚类分析,最后提取与聚类中心最近的主题的描述词作为检索结果聚类的标签。[结果/结论]实验表明,该方法在检索结果聚类以及聚类标签识别上具有很好的效果。
【作者单位】: 华东师范大学经济与管理学部信息管理系;上海图书馆会展中心;
【关键词】: LDA 检索结果聚类 聚类标签 概率分布 语义挖掘 K-means
【基金】:上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”(编号:2016BTQ002)的研究成果之一
【分类号】:TP391.3;G252.7
【正文快照】: 引用格式阮光册,夏磊.基于主题模型的检索结果聚类应用研究[J].情报杂志,2017,36(3):179-184.0引言随着数字资源应用的普及,人们逐步陷入“数据丰富,知识贫乏”的尴尬境地。面对飞速增多的各种数字资源,如何最有效最快速的筛选出目标信息,为人们提供有价值的知识,成为信息处理
【参考文献】
中国期刊全文数据库 前2条
1 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
2 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 阮光册;夏磊;;基于主题模型的检索结果聚类应用研究[J];情报杂志;2017年03期
2 廖列法;勒孚刚;朱亚兰;;LDA模型在专利文本分类中的应用[J];现代情报;2017年03期
3 王丹丹;陈清财;王晓龙;汤步洲;;基于宏特征融合的文本分类[J];中文信息学报;2017年02期
4 孔雪娜;孙红;;中文微博文本采集与预处理综述[J];软件导刊;2017年02期
5 刘冰玉;王翠荣;王聪;王军伟;王兴伟;黄敏;;基于动态主题模型融合多维数据的微博社区发现算法[J];软件学报;2017年02期
6 黄磊;杜昌顺;;基于递归神经网络的文本分类研究[J];北京化工大学学报(自然科学版);2017年01期
7 洪旭东;余正涛;严梅;;基于事件句关联的新闻主题模型构建方法[J];微型电脑应用;2017年01期
8 张群;王红军;王伦文;;词向量与LDA相融合的短文本分类方法[J];现代图书情报技术;2016年12期
9 杨萌萌;黄浩;程露红;马平;包武杰;;基于LDA主题模型的短文本分类[J];计算机工程与设计;2016年12期
10 王震;代岩岩;陈亮;林晓兰;;基于LDA模型的95598热点业务工单挖掘分析[J];电子技术与软件工程;2016年22期
【二级参考文献】
中国期刊全文数据库 前4条
1 伍建军;康耀红;;文本分类中特征降维方式的研究[J];海南大学学报(自然科学版);2007年01期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
3 张启蕊,张凌,董守斌,谭景华;训练集类别分布对文本分类的影响[J];清华大学学报(自然科学版);2005年S1期
4 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
【相似文献】
中国期刊全文数据库 前10条
1 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
2 周世兵;徐振源;唐旭清;;基于近邻传播算法的最佳聚类数确定方法比较研究[J];计算机科学;2011年02期
3 周世兵;徐振源;唐旭清;;一种基于近邻传播算法的最佳聚类数确定方法[J];控制与决策;2011年08期
4 李旭;林伟;温金环;史彩云;;基于图谱理论的图像聚类数的确定及应用[J];工程数学学报;2012年05期
5 秦振涛;杨武年;;一种新的最佳聚类数确定方法[J];电子技术应用;2013年01期
6 宋铭利;高新科;;基于距离的最大聚类数探索算法的探讨[J];矿山机械;2006年09期
7 普运伟;朱明;金炜东;胡来招;;核聚类算法最佳聚类数的自适应确定方法[J];计算机工程;2007年04期
8 杨欣斌,孙京诰,黄道;一种进化聚类学习新方法[J];计算机工程与应用;2003年15期
9 田彦山;;基于山峰聚类的聚类上限确定方法[J];江西师范大学学报(自然科学版);2007年02期
10 褚娜;马利庄;王彦;;聚类趋势问题的研究综述[J];计算机应用研究;2009年03期
中国重要会议论文全文数据库 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
2 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
6 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
7 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 魏建东;K-means初始化算法研究[D];南京理工大学;2015年
2 张依;基于MapReduce的k-means聚类算法并行化研究[D];中央民族大学;2015年
3 刘婵;蚁群与K均值聚类算法融合研究及其在用户分群中的应用[D];西南科技大学;2015年
4 朱琪;基于减法聚类的混合算法研究[D];湖南科技大学;2015年
5 韩伟森;聚类集成研究与应用[D];贵州大学;2015年
6 谭浩;K-Means算法改进及其在森林健康评价中的应用[D];中南林业科技大学;2015年
7 严巍;以KPCA为核心的FCM算法改进[D];成都理工大学;2015年
8 汪娟;基于权重设计的聚类集成算法研究[D];重庆大学;2015年
9 牛品菽;基于图模型的高效聚类算法研究[D];北京交通大学;2016年
10 蔡洪山;大数据分析中的聚类算法研究[D];安徽理工大学;2016年
,本文编号:1008480
本文链接:https://www.wllwen.com/tushudanganlunwen/1008480.html