当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于OPTICS可达图的自动识别簇方法

发布时间:2019-03-05 07:56
【摘要】:针对主题特征不明显的搜索结果聚类的问题,提出了基于OPTICS(Ordering Points To Identify theClustering Structure)可达图的自动识别簇的Smooth方法。首先利用OPTICS算法得到搜索结果的可达图,然后采用移动平均法平滑掉可达图曲线中的毛刺,最后识别其中的峰值以划分各个凹陷区域,即得到聚类结果。在搜索结果数据集上的实验结果表明,Smooth方法的准确率较已有的方法平均提高了100%左右。Smooth方法能够与OPTICS算法结合应用于搜索引擎中,对搜索结果进行聚类处理,有效地提高其可浏览性。
[Abstract]:In order to solve the problem of clustering search results whose subject features are not obvious, a Smooth method for automatic cluster recognition based on OPTICS (Ordering Points To Identify theClustering Structure)-Datuk is proposed. Firstly, the OPTICS algorithm is used to get the Datuk of the search result, then the moving average method is used to smooth out the burr in the Datuk curve. Finally, the peak value of the burr is recognized to divide each depression region, that is, the clustering result is obtained. The experimental results on the data set of the search results show that the accuracy of the Smooth method is 100% higher than that of the existing methods on average. The Smooth method can be combined with the OPTICS algorithm and can be used in the search engine to cluster the search results. Effectively improve its navigability.
【作者单位】: 北京邮电大学信息与通信工程学院;
【基金】:国家863计划项目(2011AA01A205)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 孙学刚,陈群秀,马亮;基于主题的Web文档聚类研究[J];中文信息学报;2003年03期

【共引文献】

相关期刊论文 前4条

1 李渝勤,孙丽华;基于规则的自动分类在文本分类中的应用[J];中文信息学报;2004年04期

2 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

3 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[J];中文信息学报;2007年02期

4 王楠;基于聚类的全文检索系统后处理[J];情报杂志;2005年01期

相关会议论文 前1条

1 孙丽华;肖诗斌;施水才;;基于向量空间模型的规则分类技术[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

相关博士学位论文 前2条

1 高伟;工艺设计信息系统中的知识发现技术研究[D];四川大学;2005年

2 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年

相关硕士学位论文 前10条

1 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年

2 李扬继;垃圾邮件特征的判别模型研究[D];四川大学;2005年

3 魏常丽;搜索引擎结果的再检索[D];内蒙古大学;2005年

4 顾雪峰;基于动态粒度思想的实体关系识别方法研究[D];山西大学;2006年

5 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年

6 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年

7 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年

8 郑军;网络舆情监控的热点发现算法研究[D];哈尔滨工程大学;2007年

9 朱小娟;基于支持向量机的中文分词系统的研究[D];中南大学;2007年

10 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年

【二级参考文献】

相关期刊论文 前4条

1 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期

2 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期

3 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

4 陈燕,耿国华,郑建国;一种改进的基于密度的聚类算法[J];微机发展;2005年03期

【相似文献】

相关期刊论文 前10条

1 刘志成,文全刚;“K-中心点”聚类算法分析及其实现[J];电脑知识与技术;2005年06期

2 夏咏梅;基于文本挖掘的分类与聚类技术[J];情报探索;2005年03期

3 陈琦;刘蓉;周茉;罗强;;一种改进的关联规则挖掘算法[J];计算机与数字工程;2006年08期

4 陈金山,韦岗;遗传+模糊C-均值混合聚类算法[J];电子与信息学报;2002年02期

5 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期

6 李丙春,耿国华,周明全,朱晓冬;基于自组织特征映射聚类算法的研究与应用[J];新疆大学学报(自然科学版);2003年04期

7 丁学钧,杨炎,杨克俭,温秀梅;基于属性的聚类算法在医生医疗质量评价系统中的应用研究[J];计算机应用研究;2005年03期

8 徐章艳,尹云飞;一种区间值聚类的数据挖掘方法[J];系统工程与电子技术;2005年03期

9 赵正利;王国宇;籍芳;;一种基于相关反馈的图像内在语义模型[J];微计算机信息;2007年24期

10 王善侠;王振华;王吉永;;基于决策树和聚类理论的XML文档数据挖掘的研究[J];科技信息(科学教研);2007年34期

相关会议论文 前10条

1 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年

2 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年

3 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 刘哲;唐雁;陈强;;三维模型有意义分割技术现状及应用[A];2008年计算机应用技术交流会论文集[C];2008年

6 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 孙俊;曹海龙;赵铁军;;面向句法分析的样本选择[A];第三届学生计算语言学研讨会论文集[C];2006年

8 丁海波;肖桐;朱靖波;;基于多阶段的中文人名消歧聚类技术的研究[A];第六届全国信息检索学术会议论文集[C];2010年

9 朱辉;李在铭;;视频图像中文本检测与分割技术研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

10 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关重要报纸文章 前10条

1 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年

2 创智集团副总裁 胡乐群博士;数据挖掘在CRM中的应用[N];中国计算机报;2002年

3 ;视频数据中挖“宝”[N];计算机世界;2002年

4 中国人民大学数据仓库与商务智能工程研究中心 $$  中国人民大学数据与知识工程研究所王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁;创建数据仓库:要面向三条路线[N];中国计算机报;2002年

5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年

6 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年

7 ;拨开“客户细分”迷雾[N];网络世界;2006年

8 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年

9 赵纪元;数据挖掘在CRM中的应用[N];人民邮电;2001年

10 ;中联集团非结构化内容管理系统[N];电脑商报;2005年

相关博士学位论文 前10条

1 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年

2 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年

3 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年

4 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年

5 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年

6 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年

7 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年

8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年

9 朱旭东;基于语义主题模型的人体异常行为识别研究[D];西安电子科技大学;2011年

10 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年

相关硕士学位论文 前10条

1 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年

2 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年

3 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年

4 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年

5 孙会岭;移动环境中基于聚类的个性化推荐算法研究[D];燕山大学;2011年

6 王清江;基于力学的聚类算法[D];大连理工大学;2006年

7 张帆;基于不确定性数据的聚类分析研究[D];西南农业大学;2005年

8 倪泉;基于数据挖掘技术的保险续期催交方法研究[D];华东师范大学;2006年

9 孙守义;基于聚类的教育资源个性化信息服务[D];南京师范大学;2008年

10 黄河;一种移动对象索引的研究与实现技术[D];华中科技大学;2007年



本文编号:2434686

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2434686.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18e49***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com