当前位置:主页 > 科技论文 > 软件论文 >

K-means算法性能改进及在电影推荐系统中的应用研究

发布时间:2018-12-12 02:17
【摘要】:随着互联网技术的蓬勃发展及普及应用,产生了海量的数据信息,对数据进行聚类分析能够产生巨大的商业价值,因此,K-means算法受到广泛的研究和应用。由于聚类挖掘的数据一般都呈现海量化、稀疏化的特性,传统K-means算法因其运行机制及计算策略,在处理上述海量化数据时极易出现内存溢出问题。针对K-means算法在效率方面存在的问题,业内学者提出并行抽样K-means算法,但该算法却仍存在聚类效果不稳定和迭代次数过多的问题。本文的研究工作针对并行抽样K-means算法的性能改进以及在实际推荐系统中的应用展开。具体的研究工作包括:首先,研究提出了一种改进的并行抽样K-means算法IPSK(Improved Parallel Sampling K-means),该算法从总体数据集中并行化抽取多个样本,对每个样本进行初始聚类中心计算,选取质量较好的样本初始聚类中心,并把所有聚类后的样本聚类中心存入到一个聚类中心矩阵中,对矩阵中的点进行聚类,将聚类得到的聚类中心再作为聚类总体数据集的初始聚类中心。实验表明,本算法对样本初始聚类中心的计算方式使得样本初始聚类中心更具有代表性,减弱了算法对初始聚类中心的敏感程度,在面向大数据聚类时具有很好的准确性和稳定性;其次,将IPSK算法引入到基于用户的协同过滤推荐算法中,设计了基于IPSK的用户聚类协同过滤推荐算法(IPSK-UCF);最后,设计并实现了一个电影推荐系统,探索了 IPSK-UCF算法在实际推荐系统中的应用问题。该系统能够通过用户对电影的评分和用户的历史浏览记录,发现用户的兴趣偏好,为用户推荐感兴趣的电影。论文详细说明了该系统的设计与实现方法,并展示了系统的实现效果。
[Abstract]:With the rapid development and popularization of Internet technology, huge amounts of data information have been generated. Clustering analysis of data can produce great commercial value. Therefore, K-means algorithm has been widely studied and applied. Because the data of clustering mining generally presents the characteristics of sea quantization and sparsity, the traditional K-means algorithm, because of its running mechanism and computing strategy, is prone to the problem of memory overflow when dealing with the above mentioned sea quantization data. In order to solve the problem of efficiency of K-means algorithm, a parallel sampling K-means algorithm is proposed, but the clustering effect is unstable and the number of iterations is too many. This paper focuses on the performance improvement of parallel sampling K-means algorithm and its application in practical recommendation systems. The specific research work includes: firstly, an improved parallel sampling K-means algorithm (IPSK (Improved Parallel Sampling K-means) is proposed, which takes multiple samples from the whole data set in parallel. The initial cluster center of each sample is calculated, and the sample initial cluster center with good quality is selected, and all the sample clustering centers after clustering are stored in a cluster center matrix, and the points in the matrix are clustered. The cluster center is then used as the initial cluster center of the cluster population data set. Experimental results show that the algorithm makes the initial clustering center more representative and weakens the sensitivity of the algorithm to the initial clustering center. It has good accuracy and stability for big data clustering. Secondly, the IPSK algorithm is introduced into the user-based collaborative filtering recommendation algorithm, and the user clustering collaborative filtering recommendation algorithm (IPSK-UCF) based on IPSK is designed. Finally, a movie recommendation system is designed and implemented, and the application of IPSK-UCF algorithm in the actual recommendation system is explored. The system can find out the interest preference of users and recommend interesting movies to users by scoring the movies and browsing the history of the users. This paper describes the design and implementation of the system in detail, and shows the effect of the system.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 杨勇;任淑霞;冉娟;李春青;;基于粒子群优化的k-means改进算法实现Web日志挖掘[J];计算机应用;2016年S1期

2 周润物;李智勇;陈少淼;陈京;李仁发;;面向大数据处理的并行优化抽样聚类K-means算法[J];计算机应用;2016年02期

3 王永贵;武超;戴伟;;基于MapReduce的随机抽样K-means算法[J];计算机工程与应用;2016年08期

4 杨森;;聚类分析及其应用研究[J];计算机安全;2014年01期

5 曹永春;蔡正琦;邵亚斌;;基于K-means的改进人工蜂群聚类算法[J];计算机应用;2014年01期

6 孙海峰;甘明鑫;刘鑫;吴越;;国外电影推荐系统网站研究与评述[J];计算机应用;2013年S2期

7 宛婉;周国祥;;Hadoop平台的海量数据并行随机抽样[J];计算机工程与应用;2014年20期

8 江小平;李成华;向文;张新访;颜海涛;;k-means聚类算法的MapReduce并行化实现[J];华中科技大学学报(自然科学版);2011年S1期

9 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期

10 傅德胜;周辰;;基于密度的改进K均值算法及实现[J];计算机应用;2011年02期

相关硕士学位论文 前3条

1 汪宇;基于k-means用户聚类的混合协同过滤算法的研究[D];吉林大学;2016年

2 夏冬;基于聚类的电子商务推荐系统研究[D];华东师范大学;2015年

3 雷震;基于聚类的个性化推荐算法研究[D];电子科技大学;2013年



本文编号:2373709

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2373709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fab77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com