一种改进的随机森林并行分类方法在运营商大数据的应用
[Abstract]:Telecom operators provide network services for telecom consumers, and can obtain rich data resources. In order to explore the value of these data, this paper designs and implements a second-hand real estate intermediary customer classification system based on operator big data, using the improved stochastic forest classification method, MapReduce parallel computing framework, Cluster analysis and other big data processing techniques, combined with mathematical statistics, complex network data analysis methods and network crawler technology, extracted real estate intermediary potential customers from daily phone records of operators and used them according to tenants and rentals. Buyers, sellers and other categories are classified for precise marketing by real estate agents. Classification algorithm is the core of the whole system, this paper proposes an improved stochastic forest classification algorithm, including three improvements: (1) through mathematical and experimental results, it is proved that increasing the sample size of repeated sampling can effectively improve the accuracy of the balanced data; (2) by replacing the original repeated sampling with simple random sampling, the running time of the algorithm is reduced and the system efficiency is improved. (3) the quantitative relationship between the degree of unbalance and repeated sampling is obtained by regression analysis. Finally, according to the unbalance degree of operator big data, the sample size of repeated sampling suitable for this system is obtained. The system is divided into data acquisition subsystem, data preprocessing subsystem, data analysis subsystem and feedback adjustment subsystem. The data collection subsystem is mainly responsible for collecting real estate agent data. The data pre-processing subsystem filters out the calls independent of the real estate agent by parallel processing technology, and extracts potential customers and all of their call behavior information from the parallel processing technology. The data analysis subsystem uses the improved stochastic forest algorithm to classify potential customers, especially when the system is in the cold start stage without training samples, the system uses R language of mathematical statistics to construct visual dimension graph. The visual interaction network is constructed by the analysis software Cytoscape in the complex network. The cluster analysis method of machine learning is used to analyze the initial sample set, which helps to quickly obtain training samples and comb the combination of feature dimensions. The feedback adjustment subsystem adds the labeled samples obtained during the follow-up system operation to the training sample database, and constantly adjusts the classification system, and refines the classification boundary to make the subsequent classification more accurate. By applying the improved stochastic forest classification algorithm to the second-hand real estate intermediary customer classification system based on operator big data, using the initial training sample as the test sample, the classification error rate is about 21.1379%. The classification error rate is 0.3895% lower than the unimproved classification error rate (21.5274%). The accuracy of the classification system based on the improved stochastic forest algorithm is about 79%, which can promote the sales performance of real estate agents.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
相关会议论文 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
相关博士学位论文 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
相关硕士学位论文 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 袁芳娟;基于随机森林的年龄估计[D];河北工业大学;2012年
10 刘晓东;基于组合策略的随机森林方法研究[D];大连理工大学;2013年
,本文编号:2446746
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2446746.html