当前位置:主页 > 管理论文 > 营销论文 >

一种改进的随机森林并行分类方法在运营商大数据的应用

发布时间:2019-03-25 07:04
【摘要】:电信运营商为电信消费者提供网络服务,能够取得丰富的数据资源。为了发掘这些数据的价值,本文设计并实现了一个基于运营商大数据的二手房产中介客户分类系统,利用改进的随机森林分类方法、MapReduce并行计算框架、聚类分析等大数据处理技术,并结合数理统计、复杂网络方面的数据分析方法与网络爬虫技术,从每天的运营商通话记录中提取房产中介潜在客户并对其按照租房者、出租者、购房者、售房者以及其他等类别进行划分,以供房产中介进行精准营销。分类算法是整个系统的核心,本文提出一种改进的随机森林分类算法,包括三个改进:(1)通过数学和实验证明,对平衡数据,增加重复抽样的样本量可以有效提高准确率;(2)通过采用简单随机抽样等效替代原有的重复抽样,减少该算法的运行时间,提高系统效率;(3)采用回归分析得到不平衡度与重复抽样的定量关系为..,最终根据运营商大数据的不平衡度得到适用于本系统的重复抽样样本量。系统分为数据采集子系统、数据预处理子系统、数据分析子系统和反馈调整子系统。数据采集子系统主要负责收集房产经纪人数据。数据预处理子系统通过并行化处理技术过滤掉与房产经纪人无关的通话记录,并通过并行化处理技术从中提取出潜在的客户,以及他们的所有通话行为信息。数据分析子系统利用改进的随机森林算法对潜在客户进行分类,特别当系统处于冷启动阶段还没有训练样本时,系统利用数理统计的R语言构建可视化维度图,利用复杂网络中的分析软件Cytoscape构建可视化交互作用网络,利用机器学习的聚类分析方法对初始样本集进行分析,帮助快速获取训练样本以及梳理特征维度组合。反馈调整子系统是将后续系统运行中获得的符合条件的带标签样本加入到训练样本库中,不断对分类系统进行调整,细化分类边界让后续的分类更加准确。通过将改进的随机森林分类算法应用到基于运营商大数据的二手房产中介客户分类系统,采用最初的训练样本作为测试样本进行测试,得到分类错误率为21.1379%左右,比未改进的分类错误率(21.5274%)低0.3895%。应用了改进随机森林算法的分类系统准确率在79%左右,对房产中介销售业绩提升有促进作用。
[Abstract]:Telecom operators provide network services for telecom consumers, and can obtain rich data resources. In order to explore the value of these data, this paper designs and implements a second-hand real estate intermediary customer classification system based on operator big data, using the improved stochastic forest classification method, MapReduce parallel computing framework, Cluster analysis and other big data processing techniques, combined with mathematical statistics, complex network data analysis methods and network crawler technology, extracted real estate intermediary potential customers from daily phone records of operators and used them according to tenants and rentals. Buyers, sellers and other categories are classified for precise marketing by real estate agents. Classification algorithm is the core of the whole system, this paper proposes an improved stochastic forest classification algorithm, including three improvements: (1) through mathematical and experimental results, it is proved that increasing the sample size of repeated sampling can effectively improve the accuracy of the balanced data; (2) by replacing the original repeated sampling with simple random sampling, the running time of the algorithm is reduced and the system efficiency is improved. (3) the quantitative relationship between the degree of unbalance and repeated sampling is obtained by regression analysis. Finally, according to the unbalance degree of operator big data, the sample size of repeated sampling suitable for this system is obtained. The system is divided into data acquisition subsystem, data preprocessing subsystem, data analysis subsystem and feedback adjustment subsystem. The data collection subsystem is mainly responsible for collecting real estate agent data. The data pre-processing subsystem filters out the calls independent of the real estate agent by parallel processing technology, and extracts potential customers and all of their call behavior information from the parallel processing technology. The data analysis subsystem uses the improved stochastic forest algorithm to classify potential customers, especially when the system is in the cold start stage without training samples, the system uses R language of mathematical statistics to construct visual dimension graph. The visual interaction network is constructed by the analysis software Cytoscape in the complex network. The cluster analysis method of machine learning is used to analyze the initial sample set, which helps to quickly obtain training samples and comb the combination of feature dimensions. The feedback adjustment subsystem adds the labeled samples obtained during the follow-up system operation to the training sample database, and constantly adjusts the classification system, and refines the classification boundary to make the subsequent classification more accurate. By applying the improved stochastic forest classification algorithm to the second-hand real estate intermediary customer classification system based on operator big data, using the initial training sample as the test sample, the classification error rate is about 21.1379%. The classification error rate is 0.3895% lower than the unimproved classification error rate (21.5274%). The accuracy of the classification system based on the improved stochastic forest algorithm is about 79%, which can promote the sales performance of real estate agents.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期

2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期

3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期

4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期

5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期

6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期

7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期

8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期

9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期

10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前4条

1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 袁芳娟;基于随机森林的年龄估计[D];河北工业大学;2012年

10 刘晓东;基于组合策略的随机森林方法研究[D];大连理工大学;2013年



本文编号:2446746

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2446746.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92415***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com