小样本低质量数据下贷款需求分类模型研究
本文选题:逻辑回归 切入点:数据预处理 出处:《吉林大学》2016年硕士论文 论文类型:学位论文
【摘要】:近年来,随着国民经济的快速发展,以及国家相关政策的鼓励扶持,中小型企业大量出现.随之而来的问题是小额度贷款的需求量增大.与传统的银行借贷模式相比,小额度贷款更具灵活性.因此,如何快速、准确的判断一个企业是否有贷款需求至关重要.本文主要针对中小型企业的贷款问题,在完整展现企业数据分析流程的基础上,讨论了在小样本低质量数据的情况下,如何有效地进行数据分析、建模.本文在数据缺失特征较多、数据来源较差、数据量较少的情况下,详细讨论了如何进行数据预处理、探索性数据分析和模型建立.在数据预处理过程中,采用了“严内宽外”以及“全部宽松”两种策略相结合的方式对数据进行贷款需求标注;在探索性数据研究过程中,采用了不同贷款需求下单变量分析的方法;在模型建立的过程中,采用了条件投票选择的模型聚合方法.最后我们得到了一个稳定性相对较高的贷款需求模型,且最终模型的预测准确率达到了76%.在建模过程中,采用逻辑回归模型作为基本模型,减小了过拟合风险;在数据分析流程中,充分考虑了建模目的以及之后的模型更新.因此,通过在整个数据流程上的特别处理及分析,最终模型较好的拟合了小样本低质量数据下中小型企业的贷款需求.我们根据最终模型对新的数据推荐出一批企业,得到了良好的反馈结果.
[Abstract]:In recent years, with the rapid development of national economy and the encouragement and support of relevant national policies, small and medium-sized enterprises have appeared in large numbers. Small loans are more flexible. Therefore, how to quickly and accurately judge whether an enterprise has loan demand is very important. This paper mainly focuses on the loan problem of small and medium-sized enterprises, on the basis of showing the whole process of enterprise data analysis. This paper discusses how to carry out data analysis and modeling effectively in the case of small sample and low quality data. In this paper, we discuss how to preprocess the data in detail under the condition that there are many missing features, poor data sources and less data quantity. Exploratory data analysis and modeling. In the process of data preprocessing, we use the combination of "strict inside wide" and "all loose" strategy to mark the loan demand of the data. The univariate analysis method under different loan demand is adopted, and the model aggregation method of conditional voting is used in the process of establishing the model. Finally, we obtain a relatively stable loan demand model. In the process of modeling, the logical regression model is used as the basic model to reduce the risk of over-fitting. In the process of data analysis, the purpose of modeling and the subsequent updating of the model are fully considered. Through the special processing and analysis on the whole data flow, the final model fits the loan demand of small and medium-sized enterprises with small sample and low quality data. We recommend a group of enterprises according to the final model for the new data. Good feedback results are obtained.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F832.4
【相似文献】
相关期刊论文 前10条
1 周春平;;收入、收入满意度对居民主观幸福感影响实证研究——来自江苏的证据[J];南京航空航天大学学报(社会科学版);2013年01期
2 刘遵雄;黄志强;郑淑娟;张恒;;基于内点法的稀疏逻辑回归财务预警模型[J];计算机工程与设计;2013年06期
3 ;《信用风险评分卡研究》[J];银行家;2014年02期
4 张秀兰;;逻辑回归模型下的企业财务预警实证研究[J];求索;2012年01期
5 刘遵雄;黄志强;孙清;张恒;;SCAD惩罚逻辑回归的财务预警模型[J];统计与信息论坛;2012年12期
6 邢秋菊,赵纯勇,高克昌,郭跃;基于GIS的滑坡危险性逻辑回归评价研究[J];地理与地理信息科学;2004年03期
7 林辰乐;吕翔涛;;影响城市低保受助者就业的政策因素分析——就业的双项逻辑回归模型及访谈实证研究[J];中国软科学;2012年08期
8 李霞;;基于逻辑回归的电子企业员工工作满意度研究[J];郑州航空工业管理学院学报;2010年01期
9 田永峰;王仕军;;让经济逻辑回归文化自觉——亚当·斯密理论体系中两条主线关系的辨正[J];湖北经济学院学报;2012年01期
10 赵路明;;ST公司有效利用盈余管理的实证研究[J];黑龙江科技信息;2007年02期
相关博士学位论文 前1条
1 张道军;逻辑回归空间加权技术及其在矿产资源信息综合中的应用[D];中国地质大学;2015年
相关硕士学位论文 前10条
1 粟武林;一种基于逻辑回归的微博用户可信度评估方法[D];河北大学;2015年
2 胡俊;基于多元逻辑回归和邻域信息的高光谱遥感影像半监督分类[D];中国矿业大学;2015年
3 伊瑶瑶;基于Hadoop的数据挖掘技术研究[D];南京邮电大学;2015年
4 张晓旭;基于复杂网络理论的厄尔尼诺分析与预测[D];中国海洋大学;2015年
5 乔宁;多元逻辑回归在实时竞价中的应用研究[D];河北工业大学;2015年
6 李雁林;小样本低质量数据下贷款需求分类模型研究[D];吉林大学;2016年
7 董纯洁;基于实例与逻辑回归的多标签分类模型[D];南京大学;2013年
8 祁全昌;基于内容广告平台的点击率预估系统的设计与实现[D];南京大学;2012年
9 刘力银;基于逻辑回归的推荐技术研究及应用[D];电子科技大学;2013年
10 周建成;存在“就是”句子的句间关系识别研究[D];杭州电子科技大学;2015年
,本文编号:1558339
本文链接:https://www.wllwen.com/jingjilunwen/guojijinrong/1558339.html