当前位置:主页 > 科技论文 > 路桥论文 >

基于改进的GBDT算法的乘客出行预测研究

发布时间:2017-08-20 12:25

  本文关键词:基于改进的GBDT算法的乘客出行预测研究


  更多相关文章: 推荐预测 代价敏感学习 随机梯度提升算法 决策树 不平衡数据


【摘要】:随着大数据和互联网技术的快速发展,从复杂无序的大数据中,给用户推荐用户自身感兴趣的信息,推荐系统已经成为解决信息过载的关键工具。首先根据用户的历史行为的记录,构建相应的特征工程,利用特征工程来进行建模,然后预测未来用户的兴趣,最终推荐相应的物品给用户。但现在推荐还是面对许多困难和挑战,例如如何选择适当的推荐算法来提升正样本(小类样本)预测的准确性,提高用户感兴趣物品的准确度等。为了更好的处理上述问题,研究人员继续开发出更高效的推荐算法。本文的研究主要面对的是在公共交通大数据情况下,乘客与线路之间显性关系信息缺少,隐形关系信息巨大,和同时乘客是否出行问题可以转化为二分类问题,并且乘客未来选择出行的数目远远小于不出行的特点,从而本文主要关注如何构建有效的特征工程和如何解决不平衡分类问题来提升正样本(小类样本)分类准确性。基于以上问题,本文提出了一种基于代价敏感学习和随机梯度提升的算法融合思想,从而使预测乘客是否出行更加准确。首先,采用广州省公共交通数据集,来构建用户乘车习惯相应的特征工程,本文主要从乘客,线路和乘客线路交互三个方向来进行构建特征工程。构建的角度主要从时间,天气,频率等。其次,对新的特征工程进行优化,利用随机森林对特征进行重要性评估,然后将特征变量按照变量重要性降序排序,删除不重要的特征,得到新的特征集,重复上述过程,从而得到模型精度最高时候的特征变量。最后,提出了基于代价敏感学习随机梯度提升算法,从而更好适应不平衡分类数据集,从而能够很好预测乘客未来是否出行。由于基础算法随机提升算法本身就不容易过拟合,泛化能力好,非线性等优点,所以改进的算法就很好的处理本文所构建的特征工程。首先改进的算法在公共不平衡数据集上进行训练,和其他分类算法进行对比,用AUC评价指标对算法模型进行评估。然后再采用广东市乘客刷卡记录数据集,通过多次实验选择合适的参数,分别用随机梯度算法和基于代价敏感学习随机梯度提升算法对数据集进行训练,然后通过评价指标AUC和F1来比较两个算法模型的性能。
【关键词】:推荐预测 代价敏感学习 随机梯度提升算法 决策树 不平衡数据
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:U491.17
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-15
  • 1.1 研究背景与研究意义9-10
  • 1.1.1 基于乘客乘车行为预测推荐算法问题研究背景与意义9-10
  • 1.1.2 类别不平衡问题研究背景与意义10
  • 1.2 研究现状10-13
  • 1.2.1 推荐算法的研究现状10-11
  • 1.2.2 不平衡分类问题的研究现状11-13
  • 1.3 本文主要工作13-14
  • 1.4 本文组织结构14-15
  • 2 数据预处理和构建特征工程15-21
  • 2.1 数据预处理15-17
  • 2.1.1 数据清理15-16
  • 2.1.2 数据聚集16
  • 2.1.3 数据集成16-17
  • 2.2 特征工程选择和设计17-18
  • 2.3 基于乘客维度的特征选取介绍18
  • 2.4 基于线路的特征选择介绍18-19
  • 2.5 基于乘客线路交互行为的特征选择介绍19-20
  • 2.6 本章小结20-21
  • 3 随机梯度提升决策树算法和代价敏感学习的研究与介绍21-35
  • 3.1 决策树算法的基本思想21-22
  • 3.2 Boosting基本思想22-23
  • 3.3 随机梯度提升算法的基本思想23-30
  • 3.4 代价敏感学习的介绍30-34
  • 3.4.1 AdaBoost算法31-32
  • 3.4.2 基于代价敏感学习决策树32
  • 3.4.3 基于代价敏感学习人工神经网络32-33
  • 3.4.4 代价敏感学习框架33-34
  • 3.4.5 基于代价敏感学习SVM34
  • 3.4.6 基于代价敏感的集成学习34
  • 3.5 本章小结34-35
  • 4 代价敏感学习下的随机梯度提升算法及应用35-48
  • 4.1 实验平台和工具介绍35
  • 4.2 广东市乘客出行数据集分析及其处理35-36
  • 4.3 不平衡分类数据评价标准36-38
  • 4.3.1 分类的准确性36-37
  • 4.3.2 F1-value37
  • 4.3.3 AUC性能指标37-38
  • 4.4 特征的选取及其分析38-39
  • 4.5 基于代价敏感学习随机梯度提升算法实现和分析39-40
  • 4.6 公共不平衡分类数据集实验结果40-43
  • 4.6.1 不平衡分类公共数据集40-41
  • 4.6.2 实验设置41
  • 4.6.3 实验结果及其对比分析41-43
  • 4.7 广东市乘客是否乘坐公交的实验结果43-47
  • 4.7.1 算法模型各个参数的对比和分析43-45
  • 4.7.2 实验结果分析和对比45-47
  • 4.8 本章总结47-48
  • 结论48-50
  • 参考文献50-53
  • 致谢53-54

【相似文献】

中国期刊全文数据库 前10条

1 李智;基于蚁群算法的煤炭运输优化方法[J];中国铁道科学;2004年03期

2 齐悦;于彦伟;邝俊;何杰;王沁;;一种实时有效的蜂群模式挖掘算法[J];北京科技大学学报;2012年01期

3 顾华玺;刘增基;邱智亮;康国昌;;太比特路由器内部交换网络的服务质量寻径算法[J];中北大学学报(自然科学版);2006年03期

4 俞露;;基于Prim算法的管道铺设方案设计[J];电脑编程技巧与维护;2013年14期

5 蔡巧珍;谭瑛;王艳;;基于非支配排序的多目标拟态物理学优化算法[J];太原科技大学学报;2013年01期

6 黎志鹏;分组排队算法(续)[J];广东水电科技;1985年01期

7 易s,

本文编号:706634


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/706634.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9a880***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com