基于机器学习的政府采购电商大数据标定与评价
发布时间:2022-12-07 21:12
政府采购商城是各地政府在互联网上的采购平台,每天要处理大量供货电商数据。面对数据来源各异、品类众多且书写格式无统一规范等问题,传统处理手段不仅费时费力,而且处理结果不理想。本文基于机器学习开展政府采购电商大数据的获取、标定与评价研究,实现政采数据快速获取、同一商品准确标定、利用同一商品历史价格有效预测并评价供货商新报价等,推进机器学习在政府电子采购领域的应用,协助政府智能监控商品质量与价格,减少人为因素干扰及管理成本,降低采购交易价格,提高采购效率增强采购及时性,确保政府采购商城、供货电商以及采购人三方合作共赢。本文开展的研究工作如下:首先,分析政府采购电商大数据的多样性来源与差异化特点,设计并实现数据采集程序来定向快速获取各政采商城网页上的电商数据。程序获取过程中能避免政采网页间差异性、能自动过滤重复网页、能自动筛选出各类商品,并以品类名称分类存储所获取的电商数据,方便后续通过多种不同形式查询调用所保存数据。实验结果表明,每天能够实时采集更新政府采购电商有效数据数量达20万条以上,为后续商品同一性标定以及报价预测及合理性评价提供数据支持。然后,提出一种基于长短时记忆网络(Long S...
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 网页数据采集研究现状
1.2.2 文本关键词提取及相似度计算研究现状
1.2.3 时间序列预测研究现状
1.2.4 电商大数据应用现状
1.3 论文主要工作和结构
第2章 政府采购电商大数据获取及整理
2.1 引言
2.2 政府采购电商大数据来源与特点
2.3 政府采购电商大数据采集程序编写
2.3.1 程序编写相关技术简介
2.3.2 程序设计路线
2.3.3 程序运行方式
2.3.4 程序测试环境
2.4 政府采购电商大数据采集过程与结果
2.4.1 采集过程
2.4.2 采集结果分析
2.5 本章小结
第3章 政府采购电商大数据同一性标定研究
3.1 引言
3.2 基于LSTM的同一性标定模型构建
3.2.1 长短时记忆网络简介
3.2.2 模型整体架构
3.3 分词子模型构建
3.4 LSTM重要性排序子模型构建
3.4.1 GloVe词向量化
3.4.2 引入Glo Ve词向量的LSTM重要性排序子模型
3.5 LSTM相似度计算子模型构建
3.5.1 LSTM相似度计算子模型概述
3.5.2 在子模型中引入词序列语义校验
3.5.3 在子模型中引入二分法查找
3.6 学习样本制备
3.6.1 政府采购电商大数据整理与预处理
3.6.2 LSTM重要性排序子模型的学习样本制备
3.6.3 LSTM相似度计算子模型的学习样本制备
3.7 同一性标定模型训练
3.7.1 模型训练策略
3.7.2 LSTM重要性排序子模型训练
3.7.3 LSTM相似度计算子模型训练
3.8 实验结果及分析
3.8.1 实验一:两个子模型与传统模型对比实验
3.8.2 实验二:模型性能测试实验
3.9 本章小结
第4章 政府采购电商大数据报价预测及合理性评价
4.1 引言
4.2 商品报价可视化及预处理
4.2.1 python可视化工具简介
4.2.2 基于matplotlib的报价可视化
4.2.3 报价初步分析及空缺值处理
4.3 报价数据聚类及平稳性分析
4.3.1 K-means、凝聚层次聚类、基于密度聚类简介
4.3.2 报价聚类结果分析
4.3.3 扩展迪基-福勒检验简介
4.3.4 平稳性检验结果分析
4.4 ARIMA与 SVM报价数据拟合及分析
4.4.1 差分自回归移动平均模型简介
4.4.2 支持向量机简介
4.4.3 拟合结果分析
4.5 高斯过程与高斯过程混合模型报价数据拟合及分析
4.5.1 高斯过程模型简介
4.5.2 高斯过程混合模型简介
4.5.3 拟合结果分析
4.6 基于高斯过程混合模型报价预测及合理性评价
4.7 本章小结
第5章 总结与展望
5.1 研究总结
5.2 研究展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]基于加权TextRank的文本关键词提取方法[J]. 徐立. 计算机科学. 2019(S1)
[2]融合耦合距离区分度和强类别特征的短文本相似度计算方法[J]. 马慧芳,刘文,李志欣,蔺想红. 电子学报. 2019(06)
[3]迈上现代治理新台阶的中国政府采购制度——回顾与展望(下)[J]. 姜爱华,马海涛. 中国政府采购. 2019(03)
[4]迈上现代治理新台阶的中国政府采购制度——回顾与展望(中)[J]. 姜爱华,马海涛. 中国政府采购. 2019(02)
[5]迈上现代治理新台阶的中国政府采购制度——回顾与展望(上)[J]. 姜爱华,马海涛. 中国政府采购. 2019(01)
[6]时间序列预测方法综述[J]. 杨海民,潘志松,白玮. 计算机科学. 2019(01)
[7]基于网络舆情分析的电子商务产品价格预测模型[J]. 杨茂保. 合作经济与科技. 2018(11)
[8]基于Scrapy技术的数据采集系统的设计与实现[J]. 杨君,陈春玲,余瀚. 计算机技术与发展. 2018(10)
[9]基于LSTM循环神经网络的故障时间序列预测[J]. 王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生. 北京航空航天大学学报. 2018(04)
[10]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
硕士论文
[1]基于图与LDA的中文文本关键词提取算法[D]. 郭庆.北京邮电大学 2019
[2]基于互联网技术的高校节能平台数据采集系统设计与实现[D]. 桂永娟.齐鲁工业大学 2019
[3]基于网页数据挖掘的高铁出游影响因素研究[D]. 吴瑞.长安大学 2019
[4]基于业务插件化的电商大数据采集系统[D]. 李天琦.浙江工业大学 2019
[5]基于经验模态分解的时间序列预测研究[D]. 成小林.大连理工大学 2018
[6]互联网气象水文数据定向采集系统设计与实现[D]. 李杰.国防科技大学 2018
[7]面向电商领域的关键词提取技术研究[D]. 樊继康.哈尔滨工业大学 2018
[8]基于Django的生鲜电商系统的研究与开发[D]. 陈毅.东华大学 2018
[9]社交网络数据采集方法研究及系统实现[D]. 杨杰.电子科技大学 2018
[10]基于视觉块识别的网页元数据提取方法[D]. 孙景春.东南大学 2017
本文编号:3712862
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 网页数据采集研究现状
1.2.2 文本关键词提取及相似度计算研究现状
1.2.3 时间序列预测研究现状
1.2.4 电商大数据应用现状
1.3 论文主要工作和结构
第2章 政府采购电商大数据获取及整理
2.1 引言
2.2 政府采购电商大数据来源与特点
2.3 政府采购电商大数据采集程序编写
2.3.1 程序编写相关技术简介
2.3.2 程序设计路线
2.3.3 程序运行方式
2.3.4 程序测试环境
2.4 政府采购电商大数据采集过程与结果
2.4.1 采集过程
2.4.2 采集结果分析
2.5 本章小结
第3章 政府采购电商大数据同一性标定研究
3.1 引言
3.2 基于LSTM的同一性标定模型构建
3.2.1 长短时记忆网络简介
3.2.2 模型整体架构
3.3 分词子模型构建
3.4 LSTM重要性排序子模型构建
3.4.1 GloVe词向量化
3.4.2 引入Glo Ve词向量的LSTM重要性排序子模型
3.5 LSTM相似度计算子模型构建
3.5.1 LSTM相似度计算子模型概述
3.5.2 在子模型中引入词序列语义校验
3.5.3 在子模型中引入二分法查找
3.6 学习样本制备
3.6.1 政府采购电商大数据整理与预处理
3.6.2 LSTM重要性排序子模型的学习样本制备
3.6.3 LSTM相似度计算子模型的学习样本制备
3.7 同一性标定模型训练
3.7.1 模型训练策略
3.7.2 LSTM重要性排序子模型训练
3.7.3 LSTM相似度计算子模型训练
3.8 实验结果及分析
3.8.1 实验一:两个子模型与传统模型对比实验
3.8.2 实验二:模型性能测试实验
3.9 本章小结
第4章 政府采购电商大数据报价预测及合理性评价
4.1 引言
4.2 商品报价可视化及预处理
4.2.1 python可视化工具简介
4.2.2 基于matplotlib的报价可视化
4.2.3 报价初步分析及空缺值处理
4.3 报价数据聚类及平稳性分析
4.3.1 K-means、凝聚层次聚类、基于密度聚类简介
4.3.2 报价聚类结果分析
4.3.3 扩展迪基-福勒检验简介
4.3.4 平稳性检验结果分析
4.4 ARIMA与 SVM报价数据拟合及分析
4.4.1 差分自回归移动平均模型简介
4.4.2 支持向量机简介
4.4.3 拟合结果分析
4.5 高斯过程与高斯过程混合模型报价数据拟合及分析
4.5.1 高斯过程模型简介
4.5.2 高斯过程混合模型简介
4.5.3 拟合结果分析
4.6 基于高斯过程混合模型报价预测及合理性评价
4.7 本章小结
第5章 总结与展望
5.1 研究总结
5.2 研究展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]基于加权TextRank的文本关键词提取方法[J]. 徐立. 计算机科学. 2019(S1)
[2]融合耦合距离区分度和强类别特征的短文本相似度计算方法[J]. 马慧芳,刘文,李志欣,蔺想红. 电子学报. 2019(06)
[3]迈上现代治理新台阶的中国政府采购制度——回顾与展望(下)[J]. 姜爱华,马海涛. 中国政府采购. 2019(03)
[4]迈上现代治理新台阶的中国政府采购制度——回顾与展望(中)[J]. 姜爱华,马海涛. 中国政府采购. 2019(02)
[5]迈上现代治理新台阶的中国政府采购制度——回顾与展望(上)[J]. 姜爱华,马海涛. 中国政府采购. 2019(01)
[6]时间序列预测方法综述[J]. 杨海民,潘志松,白玮. 计算机科学. 2019(01)
[7]基于网络舆情分析的电子商务产品价格预测模型[J]. 杨茂保. 合作经济与科技. 2018(11)
[8]基于Scrapy技术的数据采集系统的设计与实现[J]. 杨君,陈春玲,余瀚. 计算机技术与发展. 2018(10)
[9]基于LSTM循环神经网络的故障时间序列预测[J]. 王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生. 北京航空航天大学学报. 2018(04)
[10]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
硕士论文
[1]基于图与LDA的中文文本关键词提取算法[D]. 郭庆.北京邮电大学 2019
[2]基于互联网技术的高校节能平台数据采集系统设计与实现[D]. 桂永娟.齐鲁工业大学 2019
[3]基于网页数据挖掘的高铁出游影响因素研究[D]. 吴瑞.长安大学 2019
[4]基于业务插件化的电商大数据采集系统[D]. 李天琦.浙江工业大学 2019
[5]基于经验模态分解的时间序列预测研究[D]. 成小林.大连理工大学 2018
[6]互联网气象水文数据定向采集系统设计与实现[D]. 李杰.国防科技大学 2018
[7]面向电商领域的关键词提取技术研究[D]. 樊继康.哈尔滨工业大学 2018
[8]基于Django的生鲜电商系统的研究与开发[D]. 陈毅.东华大学 2018
[9]社交网络数据采集方法研究及系统实现[D]. 杨杰.电子科技大学 2018
[10]基于视觉块识别的网页元数据提取方法[D]. 孙景春.东南大学 2017
本文编号:3712862
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3712862.html