基于数据挖掘技术的信息分析方法研究——以集装箱海运价格预测为例
发布时间:2021-11-17 15:46
【目的/意义】针对多组时间序列的海量数据集和以预测为目标的信息分析方法,提出了基于数据挖掘技术的预测模型,在大数据环境下,提高了预测精度,以期在其他领域的信息分析和情报预测能有所借鉴。【方法/过程】以集装箱海运价格预测为例,提出集装箱海运价格预测模型,设计自适应的网格搜索策略,高效准确地确定数据挖掘算法中的超参数组合,提出基于时间序列留出法的评估方法,降低了集装箱运价这种多组时间序列数据集在数据挖掘结果上的泛化误差,针对海量运价信息,对GBDT算法进行并行计算设计和预排序后的损失函数迭代计算优化策略,提高了算法在大数据环境下的计算效率。【结果/结论】模型和算法运行结果仿真显示:对于传统的时间序列问题,基于数据挖掘方法的预测模型取得了比传统时间序列方法更优的结果。
【文章来源】:情报科学. 2019,37(07)北大核心CSSCI
【文章页数】:7 页
【部分图文】:
运价预测模型示意图
ATEn就是第n周的输出属性,表征的是第n+1周相对于第n周运价的波动幅度。CLF被定义为决策建议,是指若运价预测模型的输出结果是持平或上涨,那么建议用户订舱(值为1),否则建议暂时观望(值为0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含义同上,CLFn表示第n周的决策情况。衍生后最终得到的数据集共包含39个属性。44.5运价预测的效果4.5.1分类结果以欧洲线为例,其分析结果如表3所示,准确率如图6所示。表3分类模型预测结果示例(欧洲线)学习方法decisionTreeextratreeRandomForest验证集准确率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15测试集准确率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100.03—94.0469.6871.3611.91—11.208.308.5077.9868.4577.9854.1758.0460.0444.9732.038.1322.287.155.363.810.972.65图6分类模型预测准确率分析示意图分类算法当中KNN和采用RBF核的支持向量机模型在准确率和泛化性上表现最为优越,验证集准确率达到79.17%,测试集上达到77.98%。4.5.2回归结果回归预测结果如表4所示,误差分析如图7所示。表4回归模型预测结果示例(欧洲线)学习方法LassoRidgeRegressionSVRAdaboostLinearModleRandomForestExtraTreeGBDT验证集MSE444.15496.43446.69357.76712.97
EDA分析,包括各航线数据占比分析、各航线运价箱型图分析、各航线运价走势分析等,其中箱型图如图5所示。图5各航线运价箱型图44.4维度衍生为了提高预测精度,针对特征属性衍生了基于运价的横向同期指标、纵向历史指标、历史变化指标,基于起始港和目的港衍生的距离属性等;针对预测目标衍生了三类,分别为PRICE_NEXT_WEEK(下一周运价)、CHANGE_RATE(涨跌幅)和CLF。PRICE_NEXT_WEEK为中间结果,CHANGE_RATE(涨跌幅)定义如下:CHANGE_RATEn=pricen+1-pricenpricenpricen+1是第n+1周的运价,pricen是第n周的运价,CHANGE_RATEn就是第n周的输出属性,表征的是第n+1周相对于第n周运价的波动幅度。CLF被定义为决策建议,是指若运价预测模型的输出结果是持平或上涨,那么建议用户订舱(值为1),否则建议暂时观望(值为0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含义同上,CLFn表示第n周的决策情况。衍生后最终得到的数据集共包含39个属性。44.5运价预测的效果4.5.1分类结果以欧洲线为例,其分析结果如表3所示,准确率如图6所示。表3分类模型预测结果示例(欧洲线)学习方法decisionTreeextratreeRandomForest验证集准确率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15测试集准确率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100
【参考文献】:
期刊论文
[1]大数据时代下的情报分析与挖掘技术研究——电信客户流失情况分析[J]. 王晓佳,杨善林,陈志强. 情报学报. 2013 (06)
[2]基于BP神经网络的干散货航运市场运价预警[J]. 朱小婷,林国龙. 水运管理. 2012(04)
[3]运用神经网络模型预测铁矿石即期海运运价[J]. 尚介丽,骆温平. 水运管理. 2012(04)
[4]基于支持向量机的干散货航运市场运价预警[J]. 杨华龙,东方. 中国航海. 2009(03)
[5]神经网络在波罗的海运价指数预测中的应用研究[J]. 曾庆成. 大连海事大学学报. 2004(03)
[6]海运价格指数的波动规律[J]. 吕靖,陈庆辉. 大连海事大学学报. 2003(01)
硕士论文
[1]基于小波分析和神经网络的BFI预测研究[D]. 徐萍.大连海事大学 2006
本文编号:3501221
【文章来源】:情报科学. 2019,37(07)北大核心CSSCI
【文章页数】:7 页
【部分图文】:
运价预测模型示意图
ATEn就是第n周的输出属性,表征的是第n+1周相对于第n周运价的波动幅度。CLF被定义为决策建议,是指若运价预测模型的输出结果是持平或上涨,那么建议用户订舱(值为1),否则建议暂时观望(值为0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含义同上,CLFn表示第n周的决策情况。衍生后最终得到的数据集共包含39个属性。44.5运价预测的效果4.5.1分类结果以欧洲线为例,其分析结果如表3所示,准确率如图6所示。表3分类模型预测结果示例(欧洲线)学习方法decisionTreeextratreeRandomForest验证集准确率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15测试集准确率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100.03—94.0469.6871.3611.91—11.208.308.5077.9868.4577.9854.1758.0460.0444.9732.038.1322.287.155.363.810.972.65图6分类模型预测准确率分析示意图分类算法当中KNN和采用RBF核的支持向量机模型在准确率和泛化性上表现最为优越,验证集准确率达到79.17%,测试集上达到77.98%。4.5.2回归结果回归预测结果如表4所示,误差分析如图7所示。表4回归模型预测结果示例(欧洲线)学习方法LassoRidgeRegressionSVRAdaboostLinearModleRandomForestExtraTreeGBDT验证集MSE444.15496.43446.69357.76712.97
EDA分析,包括各航线数据占比分析、各航线运价箱型图分析、各航线运价走势分析等,其中箱型图如图5所示。图5各航线运价箱型图44.4维度衍生为了提高预测精度,针对特征属性衍生了基于运价的横向同期指标、纵向历史指标、历史变化指标,基于起始港和目的港衍生的距离属性等;针对预测目标衍生了三类,分别为PRICE_NEXT_WEEK(下一周运价)、CHANGE_RATE(涨跌幅)和CLF。PRICE_NEXT_WEEK为中间结果,CHANGE_RATE(涨跌幅)定义如下:CHANGE_RATEn=pricen+1-pricenpricenpricen+1是第n+1周的运价,pricen是第n周的运价,CHANGE_RATEn就是第n周的输出属性,表征的是第n+1周相对于第n周运价的波动幅度。CLF被定义为决策建议,是指若运价预测模型的输出结果是持平或上涨,那么建议用户订舱(值为1),否则建议暂时观望(值为0):CLFn={1pricen+1?pricen0pricen+1<pricenpricen+1和pricen的含义同上,CLFn表示第n周的决策情况。衍生后最终得到的数据集共包含39个属性。44.5运价预测的效果4.5.1分类结果以欧洲线为例,其分析结果如表3所示,准确率如图6所示。表3分类模型预测结果示例(欧洲线)学习方法decisionTreeextratreeRandomForest验证集准确率(%)75.5983.9379.76收益($)97.77109.3693.62收益率(%)11.6413.0311.15测试集准确率(%)65.4851.7957.74收益($)37.47.7926.12收益率(%)4.450.933.11KNNNaveBayesSVClinearSVCAdaboost79.17—79.1768.4576.34100
【参考文献】:
期刊论文
[1]大数据时代下的情报分析与挖掘技术研究——电信客户流失情况分析[J]. 王晓佳,杨善林,陈志强. 情报学报. 2013 (06)
[2]基于BP神经网络的干散货航运市场运价预警[J]. 朱小婷,林国龙. 水运管理. 2012(04)
[3]运用神经网络模型预测铁矿石即期海运运价[J]. 尚介丽,骆温平. 水运管理. 2012(04)
[4]基于支持向量机的干散货航运市场运价预警[J]. 杨华龙,东方. 中国航海. 2009(03)
[5]神经网络在波罗的海运价指数预测中的应用研究[J]. 曾庆成. 大连海事大学学报. 2004(03)
[6]海运价格指数的波动规律[J]. 吕靖,陈庆辉. 大连海事大学学报. 2003(01)
硕士论文
[1]基于小波分析和神经网络的BFI预测研究[D]. 徐萍.大连海事大学 2006
本文编号:3501221
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3501221.html