基于中文检索的Web聚类算法研究
本文关键词:基于中文检索的Web聚类算法研究,,由笔耕文化传播整理发布。
【摘要】:随着大数据时代的到来,用户对信息搜索的精确度和效率提出了更高要求,而传统的搜索引擎存在着一定的不足。聚类检索是对搜索引擎的返回结果聚类,然后将提取的标签和类簇呈现给用户。用户根据标签就可以直观地获取检索结果的总体信息,能够迅速定位自己想要查找的内容,提高了用户的查询效率。Carrot2是一个开源的聚类搜索引擎系统,它采用的聚类算法在Web检索聚类方面有很强的代表性。文章选取Carrot2采用的K-means和Lingo算法进行了深入研究,并针对算法的不足及存在问题做了一定的改进。K-means是经典的划分聚类算法,其具有简单易懂、运行速度快的优点,然而也存在着一些不足,如K值的确定、初始聚类中心的选取、易受噪音点和孤立点的影响等多个方面。文章首先结合Web检索结果的特点确定了K值并选出初始聚类中心,然后用权重法代替平均法降低了噪声数据的影响。在经过多次试验后,又发现文档的合理归类问题。文章根据Web检索结果的排名特点,改进了权值计算公式,使文档归入排名靠前的类簇中。如“华为”的检索结果中,将文档“华为手机大全”放入“手机”和“大全”的类簇中都不为错,但归入“手机”的类簇中显然更加合适。Lingo算法是基于潜在语义索引的聚类算法。本文分析了Lingo算法中影响聚类效果的因素,通过引入位置信息和词长信息对其权值计算公式进行了改进,以提高聚类的准确率。实验表明,改进后的K-means算法解决了硬聚类算法的文档合理归类问题,而且具有良好的聚类效果,标签的可读性也较高。改进的Lingo算法的准确率也有了较大提高。
【关键词】:Web检索 聚类 K-means Lingo 特征权值
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-12
- 1.1 研究背景及意义7-9
- 1.2 国内外研究现状9-10
- 1.3 论文主要研究工作10-11
- 1.4 论文组织结构11-12
- 第二章 聚类搜索引擎及其理论基础12-27
- 2.1 搜索引擎系统的介绍12-15
- 2.2 聚类搜索引擎系统15-16
- 2.3 常用聚类算法16-17
- 2.4 常见降维方法17-22
- 2.4.1 线性降维方法17-20
- 2.4.2 非线性降维算法20-22
- 2.5 距离公式介绍22-25
- 2.6 经典的Web检索聚类方法25-27
- 第三章 改进的K-means检索聚类算法27-33
- 3.1 文本特征空间构造27-29
- 3.1.1 特征词的选取27
- 3.1.2 稀疏特征词对聚类的影响27-29
- 3.1.3 构造文本特征空间29
- 3.2 初始聚类中心的选取和聚类数目的确定29
- 3.3 特征权值的改进29-30
- 3.4 测量公式的选择30-31
- 3.5 簇质心的更新31
- 3.6 算法步骤31-32
- 3.7 聚类标签的抽取32-33
- 第四章 改进的Lingo检索聚类算法33-37
- 4.1 Lingo算法分析33
- 4.2 特征项选取和特征权值的改进33-35
- 4.3 标签提取及文档聚类35
- 4.4 算法步骤35-37
- 第五章 实验验证37-42
- 5.1 实验环境和数据来源37
- 5.2 实验结果37-40
- 5.2.1 K-means算法实验37-39
- 5.2.2 Lingo算法实验39-40
- 5.3 实验结果分析40-42
- 5.3.1 K-means分析40-41
- 5.3.2 Lingo分析41
- 5.3.3 综合分析41-42
- 第六章 总结与展望42-44
- 6.1 总结42
- 6.2 展望42-44
- 致谢44-45
- 参考文献45-47
- 作者简介47
- 攻读硕士学位期间研究成果47
【相似文献】
中国期刊全文数据库 前10条
1 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期
2 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期
3 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期
4 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期
5 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期
6 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期
7 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期
8 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期
9 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期
10 赵娟;;浅析启发式教学法在《算法分析与设计》课程中的应用[J];福建电脑;2012年06期
中国重要会议论文全文数据库 前10条
1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
5 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王万青;张晓辉;;改进的A~*算法的高效实现[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
7 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
9 张悦;尤枫;赵瑞莲;;利用蚁群算法实现基于程序结构的主变元分析[A];第五届中国测试学术会议论文集[C];2008年
10 王旭东;刘渝;邓振淼;;正弦波频率估计的修正Rife算法及其FPGA实现[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
中国博士学位论文全文数据库 前10条
1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
4 李红;流程挖掘算法研究[D];云南大学;2015年
5 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
6 黄磊;高动态环境捷联惯导信号处理及高精度姿态速度算法研究[D];南京航空航天大学;2015年
7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年
2 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年
3 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年
4 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年
5 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年
6 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年
7 郑海彬;一种面向MAPREDUCE的DATASHUFFLE的优化方法[D];苏州大学;2015年
8 赵晓寒;轮换步长PSO算法及SMVSC参数优化[D];沈阳理工大学;2015年
9 安丰洋;基于无线网络的广播算法研究[D];曲阜师范大学;2015年
10 李智明;基于改进FastICA算法的混合语音盲分离[D];上海交通大学;2015年
本文关键词:基于中文检索的Web聚类算法研究,由笔耕文化传播整理发布。
本文编号:434299
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/434299.html