互联网环境下多源数据的特征分析与趋势预测研究

发布时间：2020-05-04 18:00

【摘要】：当前互联网环境下,网民越来越习惯于使用搜索引擎查询自身感兴趣的资讯,也会使用微博、论坛等平台来发表自己的观点。网民群体的庞大使得他们在互联网留下了大量的行为数据,这些数据蕴含在各个网络平台中。用户在互联网留下的行为数据具有对现实社会的指导意义。现实中某些指标数据往往会因为其统计流程的繁琐不能及时发布。而此时互联网数据却能够反映出该类指标数据的走向。流感的病例数已经被证明可以通过搜索引擎的搜索频次进行较为准确的预估。此外,用户群体在社交网络留下的动态数据也同样被研究者们用于预测。综合上述互联网中的多源数据来改善现实指标预测的准确度是本文的研究重点。想要利用互联网环境下庞大的用户行为数据必须先筛选出对预测有指导意义的数据源。在获得数据之后还需要对数据进行特征分析,最后将分析结果用于模型训练和预测。所以论文的主要工作内容包含如下几点:(1)研究了互联网多源数据的采集与特征分析。以流感病例数的非直接相关互联网数据为例,设计了一种基于互联网多源数据的采集与特征分析方案。其中的多源数据主要指的是搜索引擎数据和社交网络数据。该方法可以很好的筛选与目标主题相关的互联网数据并获得其主要特征。(2)提出了一种基于互联网多源数据的组合预测模型,以流感样病例数的预测为例。该模型从互联网的不同数据源中分别训练预测模型,再基于得到的预测结果使用GBDT算法作为次级学习器进行集成。该模型具有比只使用单一数据源的预测模型更好的预测效果。(3)以九寨沟游客量为例,证明采集分析方案和组合预测模型对其他现实指标数据的应用价值。在该实例上,组合预测模型的预测效果依然优于只使用单一数据源的预测模型。(4)设计并实现了一种互联网多源数据采集分析系统。并对系统进行了测试,测试结果说明本方案能够快速采集多源数据并训练模型,可以对模型的拟合及预测效果进行对比分析。综上所述,本文的主要研究内容是给出了一种基于互联网多源数据的采集与特征分析方案,并在此基础上提出了一种基于互联网多源数据的组合预测模型。
【图文】：

交叉验证,思路

图 2-1 交叉验证思路常见的交叉验证种类有：（1）K 折交叉验证：K 折交叉验证需要将初始样本数据集划分为 K 个子样本数据集。其中一个样本子集作为测试集，其他的样本子集用于训练。重复进行 K 此训练，直到每个子样本都被预测一次。该方法的优点在于它重复利用了随机生成的子样本集进行训练和验证。其中，，K 常常被取值为 10.（2）保持验证：也被称为 hold-out 验证。该验证方法其实并没有交叉的使用数据，它随机地选择样本划分测试集与训练集。（3）留一验证：保留一个验证仅使用原始样本中的一个样本作为验证集，而其余的作为训练数据。继续该步骤，直到将每个样品视为验证数据。实际上，这相当于 K 折交叉验证，其中 K 是原始样本数。2.3 趋势预测相关技术

模型,泛化误差,主要思想,测试集

图 2-2Boosting 集成学习方法（2）Bagging：Bagging(bootstrapaggregating)是通过结合几个模型降低泛化误差的技术，主要思想是分别训练几个不同的模型，然后让所有模型给出测试样例的输出。该方法利用了模型平均这一特性，不同的模型往往不会在测试集上产生完全相同的误差。该算法大致思路如下图 2-3 所示。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP391.3

【参考文献】