基于频繁词义序列的检索结果聚类算法研究
本文关键词:基于频繁词义序列的检索结果聚类算法研究
更多相关文章: 聚类算法 频繁项 信息检索 Word Net
【摘要】:目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用Word Net结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。
【作者单位】: 中科院新疆理化技术研究所多语种信息技术研究室;
【关键词】: 聚类算法 频繁项 信息检索 Word Net
【基金】:中国科学院战略先导专项(No.XDA06030400) 新疆维吾尔族自治区“十二五”重大专项(No.201230118) 中科院西部之光项目(No.YB201304)
【分类号】:TP391.3
【正文快照】: 1引言随着网络信息的爆炸式增长,搜索引擎日益成为信息时代不可或缺的工具。现在大部分通用的搜索引擎将与用户查询相关的网页按照其与用户查询的相关度进行排序,返回给用户一个列表形式的网页查询结果,用户需要对每个网页逐一判断是否满足自己的要求。研究[1]表明大多数用户
【参考文献】
中国期刊全文数据库 前1条
1 何波;闫河;;分布式数据库全局最大频繁项集增量更新算法[J];四川大学学报(工程科学版);2012年03期
【共引文献】
中国期刊全文数据库 前2条
1 朱清香;于欣;刘晶;刘彦凯;尹佳;;基于加权关联增量更新模型的设备故障诊断研究[J];燕山大学学报;2014年04期
2 徐红艳;陈锋;张森林;冯勇;;一种存在全局站点的分布式增量挖掘算法[J];辽宁大学学报(自然科学版);2013年01期
中国硕士学位论文全文数据库 前1条
1 陈锋;分布式流行病数据增量挖掘方法研究[D];辽宁大学;2013年
【二级参考文献】
中国期刊全文数据库 前8条
1 宋余庆,朱玉全,孙志挥,杨鹤标;一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J];计算机研究与发展;2005年05期
2 王黎明;赵辉;;基于FP树的全局最大频繁项集挖掘算法[J];计算机研究与发展;2007年03期
3 吉根林,杨明,赵斌,孙志挥;基于DDMINER分布式数据库系统中频繁项目集的更新[J];计算机学报;2003年10期
4 吉根林,杨明,宋余庆,孙志挥;最大频繁项目集的快速更新[J];计算机学报;2005年01期
5 何波;;快速挖掘分布式数据库全局最大频繁项集[J];控制与决策;2011年08期
6 宋余庆,朱玉全,孙志挥,陈耿;基于FP-Tree的最大频繁项目集挖掘及更新算法[J];软件学报;2003年09期
7 杨明,孙志挥,宋余庆;快速更新全局频繁项目集[J];软件学报;2004年08期
8 陆介平,杨明,孙志挥,鞠时光;快速挖掘全局最大频繁项目集[J];软件学报;2005年04期
【相似文献】
中国期刊全文数据库 前10条
1 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
2 颜跃进;李舟军;陈火旺;;频繁项集挖掘算法[J];计算机科学;2004年03期
3 刘晓玲,李玉忱;一种利用逻辑“与”运算挖掘频繁项集的算法[J];中国科技信息;2005年15期
4 陈凯 ,冯全源;基于矩阵伪投影策略的频繁项集挖掘方法[J];微计算机信息;2005年23期
5 阮幼林;李庆华;杨世达;;一种基于事务树的快速频繁项集挖掘与更新算法[J];计算机科学;2005年02期
6 袁鼎荣,李波;频繁项集挖掘技术述评[J];广西民族学院学报(自然科学版);2005年01期
7 马猛,倪志伟;基于异集产生频繁项集的研究[J];计算机工程与应用;2005年08期
8 陈慧萍;王建东;王煜;;频繁项集挖掘的研究与进展[J];计算机仿真;2006年04期
9 樊玫;段隆振;陈桂香;黄龙军;;基于事务压缩的频繁项集挖掘和更新算法[J];南昌大学学报(理科版);2006年05期
10 章志明;黄龙军;余敏;黄明和;;一种动态的频繁项集挖掘算法[J];计算机工程;2006年24期
中国重要会议论文全文数据库 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 郭静;最大和最长频繁项集增量更新研究[D];燕山大学;2010年
2 熊金芬;一种高效频繁项集挖掘算法的研究[D];哈尔滨工程大学;2006年
3 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
4 王洪波;基于矩阵的频繁项集挖掘算法研究[D];兰州大学;2007年
5 王春凯;挖掘正相关的频繁项集[D];郑州大学;2007年
6 王春丽;基于频繁项集的互补替代关系挖掘算法[D];郑州大学;2011年
7 李伟民;基于频繁项集的马尔可夫网构建及其系统设计与实现[D];云南大学;2012年
8 冯沙沙;基于位表的频繁项集挖掘算法研究[D];燕山大学;2012年
9 姚晓玲;快速频繁项集挖掘算法研究[D];湖南大学;2011年
10 宛婉;基于抽样的云频繁项集挖掘算法研究[D];合肥工业大学;2013年
,本文编号:546056
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/546056.html