面向海量商品数据的分布式层次聚类算法设计与实现
[Abstract]:Thanks to advances in computer science and information technology, businesses can easily collect and store large amounts of data. However, the collected data only takes up a large amount of storage space and can not effectively help the value of the enterprise. Therefore, the enterprise begins to mine information from the data. In the past, the process of information mining was analyzed and interpreted by experts, which became more and more difficult with the rapid increase of data and attributes. Therefore, how to discover knowledge automatically from the huge database and further process into the indispensable business wisdom of enterprises has gradually become an important subject that enterprises and organizations have to face in the 21 century. In production practice, the increasing speed of data and the time consumed by data analysis have formed a more and more prominent contradiction. Data mining is just to solve the problem of traditional analysis methods, aiming at the analysis of large-scale data processing technology. By applying the self-learning algorithm to large-scale data sets, data mining can get the knowledge and information hidden in the data. As the main regulatory unit of national commodity import and export, customs is the producer and owner of mass import and export data. With the deepening and perfection of business process information construction, customs has basically realized relatively complete data-based supervision and digital operation capability. But at the same time, the contradiction between the relatively limited data analysis means and the increasing data and business complexity is becoming more and more prominent. How to effectively classify and manage the vast quantities of customs declaration goods becomes an urgent problem to be solved in customs supervision. Based on the main line of customs commodity data analysis project, a series of processing modules of commodity data are implemented on the basis of MapReduce framework, and a distributed clustering system of commodity data is formed in this paper. The main contents include commodity data preprocessing, TF-IDF calculation, inverted index construction, similarity matrix calculation, single join hierarchical clustering calculation and so on. Finally, the result of hierarchical clustering is used to sort out the commodity data of customs, which provides the accurate statistical basis for the module of customs information analysis and judgment, and produces an effect in practical application.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 李远敏,林锦章;基于分治递归的层次聚类算法实现[J];湖北职业技术学院学报;2005年03期
2 陈旭玲;楼佩煌;;改进层次聚类算法在文献分析中的应用[J];数值计算与计算机应用;2009年04期
3 杨栋;詹海亮;苏锦旗;;基于区域最近邻生长的层次聚类算法[J];化工自动化及仪表;2010年05期
4 王娴;杨绪兵;周宇;周溜溜;;一种基于类中心矫正的层次聚类算法[J];微电子学与计算机;2011年10期
5 谢振平;王士同;王晓明;;一种基于软边界球分的分裂式层次聚类算法[J];模式识别与人工智能;2008年04期
6 姚玉钦;李金广;;一种基于网格的层次聚类算法[J];河南师范大学学报(自然科学版);2009年04期
7 李俊辉;;基于不确定图的层次聚类算法研究[J];中国管理信息化;2012年24期
8 李新良;;基于层次聚类算法的改进研究[J];软件导刊;2007年19期
9 刘兴波;;凝聚型层次聚类算法的研究[J];科技信息(科学教研);2008年11期
10 郭晓娟;刘晓霞;李晓玲;;层次聚类算法的改进及分析[J];计算机应用与软件;2008年06期
相关会议论文 前3条
1 马晓艳;唐雁;;层次聚类算法研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 吴楠楠;史亮;饶金通;姜青山;董槐林;;一种改进的高效层次聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
相关博士学位论文 前1条
1 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年
相关硕士学位论文 前10条
1 郭芳芳;面向分类型集值数据的层次聚类算法研究[D];山西大学;2015年
2 李彩云;基于密度的改进型层次聚类算法研究[D];兰州大学;2016年
3 乔端瑞;基于K-means算法及层次聚类算法的研究与应用[D];吉林大学;2016年
4 程东东;基于自然邻的层次聚类算法研究[D];重庆大学;2016年
5 吕琳;基于蚁群优化的层次聚类算法及其在网络取证中的应用[D];山东师范大学;2017年
6 周俊林;面向海量商品数据的分布式层次聚类算法设计与实现[D];浙江大学;2017年
7 瞿俊;基于重叠度的层次聚类算法研究及其应用[D];厦门大学;2007年
8 杨海斌;一种新的层次聚类算法的研究及应用[D];西北师范大学;2011年
9 张冬梅;基于轮廓系数的层次聚类算法研究[D];燕山大学;2010年
10 李慧驰;基于三度信息的双重层次聚类算法[D];武汉理工大学;2013年
,本文编号:2441622
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2441622.html