若干密度聚类算法改进及电商网站评价应用
本文选题:聚类分析 + DBSCAN ; 参考:《吉林财经大学》2016年硕士论文
【摘要】:聚类分析是数据挖掘的重要技术,是获取知识的重要方法和手段。DBSCAN算法作为一种基于密度的聚类分析方法,可以在包含噪音点的数据中发现任意形状的聚类且不受噪音点的影响。但该算法也存在以下缺点:(1)输入参数需要先验知识人工设置;(2)对输入参数敏感,特别是处理密度不均的数据时,得到的聚类结果不佳。针对DBSCAN算法的参数敏感性问题,本文提出基于数据划分的DBSCAN算法。该聚类算法的基本思想:首先采用人工鱼群算法和k-means划分相结合的方法实现数据集的划分;然后在数据划分的基础上,引入变异系数优化参数Eps取值,使用DBSCAN算法分别聚类;最后得到最终的聚类结果。为了验证算法的有效性和有用性,本文将改进的DBSCAN算法应用于企业电子商务网站的评价。随着互联网和电子商务的迅速普及和发展,大多数企业在互联网上建立自己的电子商务网站,提升企业竞争力。然而,由于没有统一的衡量评价标准,企业对电子商务网站缺乏正确的认识,需要对企业电子商务网站进行合理分析和评价,帮助企业提高电子商务网站建设水平。另外,电子商务网站的数据具有密度不均的分布特性,因此,适合用改进的DBSCAN聚类算法对企业电子商务网站进行聚类分析和评价。企业电子商务网站评价问题的成功解决,也将有助于DBSCAN算法在实际应用方面进行更加深入的研究。
[Abstract]:Clustering analysis is an important technology of data mining. It is an important method and means of acquiring knowledge. DBSCAN algorithm is a density-based clustering analysis method.Clusters of arbitrary shapes can be found in data containing noise points and are not affected by noise points.However, the algorithm also has the following disadvantages: 1) the input parameters need to be manually set by a prior knowledge) and the algorithm is sensitive to the input parameters, especially when dealing with data with uneven density, the clustering results obtained are not good.Aiming at the parameter sensitivity of DBSCAN algorithm, this paper proposes a DBSCAN algorithm based on data partitioning.The basic idea of this clustering algorithm is: firstly, the method of combining artificial fish swarm algorithm and k-means partition is used to realize the partition of data sets, and then, on the basis of the data partition, the variation coefficient is introduced to optimize the parameter Eps, and the DBSCAN algorithm is used to cluster the data separately.Finally, the final clustering results are obtained.In order to verify the validity and usefulness of the algorithm, this paper applies the improved DBSCAN algorithm to the evaluation of enterprise e-commerce websites.With the rapid popularization and development of the Internet and e-commerce, most enterprises set up their own e-commerce websites on the Internet to enhance the competitiveness of enterprises.However, due to the lack of a unified evaluation standard and lack of correct understanding of e-commerce websites, it is necessary to analyze and evaluate them reasonably to help them improve the level of construction of e-commerce websites.In addition, the data of E-commerce website is distributed unevenly, so it is suitable to use the improved DBSCAN clustering algorithm to analyze and evaluate the E-commerce website.The successful solution of the evaluation problem of enterprise e-commerce website will also be helpful for the further study of DBSCAN algorithm in practical application.
【学位授予单位】:吉林财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;F724.6
【相似文献】
相关期刊论文 前10条
1 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
2 周世兵;徐振源;唐旭清;;基于近邻传播算法的最佳聚类数确定方法比较研究[J];计算机科学;2011年02期
3 周世兵;徐振源;唐旭清;;一种基于近邻传播算法的最佳聚类数确定方法[J];控制与决策;2011年08期
4 李旭;林伟;温金环;史彩云;;基于图谱理论的图像聚类数的确定及应用[J];工程数学学报;2012年05期
5 秦振涛;杨武年;;一种新的最佳聚类数确定方法[J];电子技术应用;2013年01期
6 宋铭利;高新科;;基于距离的最大聚类数探索算法的探讨[J];矿山机械;2006年09期
7 普运伟;朱明;金炜东;胡来招;;核聚类算法最佳聚类数的自适应确定方法[J];计算机工程;2007年04期
8 杨欣斌,孙京诰,黄道;一种进化聚类学习新方法[J];计算机工程与应用;2003年15期
9 田彦山;;基于山峰聚类的聚类上限确定方法[J];江西师范大学学报(自然科学版);2007年02期
10 褚娜;马利庄;王彦;;聚类趋势问题的研究综述[J];计算机应用研究;2009年03期
相关会议论文 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
相关博士学位论文 前10条
1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
2 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
6 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
7 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
相关硕士学位论文 前10条
1 魏建东;K-means初始化算法研究[D];南京理工大学;2015年
2 张依;基于MapReduce的k-means聚类算法并行化研究[D];中央民族大学;2015年
3 刘婵;蚁群与K均值聚类算法融合研究及其在用户分群中的应用[D];西南科技大学;2015年
4 朱琪;基于减法聚类的混合算法研究[D];湖南科技大学;2015年
5 韩伟森;聚类集成研究与应用[D];贵州大学;2015年
6 谭浩;K-Means算法改进及其在森林健康评价中的应用[D];中南林业科技大学;2015年
7 严巍;以KPCA为核心的FCM算法改进[D];成都理工大学;2015年
8 汪娟;基于权重设计的聚类集成算法研究[D];重庆大学;2015年
9 牛品菽;基于图模型的高效聚类算法研究[D];北京交通大学;2016年
10 蔡洪山;大数据分析中的聚类算法研究[D];安徽理工大学;2016年
,本文编号:1738005
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1738005.html