基于集成学习的网络消息推广分析
发布时间:2021-02-18 17:04
当今社会,网络就像一个蜘蛛网一样连接着整个世界,各类消息都可以通过网络得到及时的传播和反馈。网络消息的有效性在于其被查阅的次数。很多消息编辑者为了在网络上推广自己的消息,通常会反复地推敲消息内容、形式、发布时间、链接数等。如何最大程度的使网络消息被推广,是每一个消息编辑者最关心的问题。本文根据互联网博客Mashable上消息被推广的数量,探究影响消息推广的主要因素。首先,运用主成分分析法筛选出影响消息推广的主要因子,保留这些因子作为研究问题的影响因子。其次,以消息被推广数为目标变量,影响因子为自变量,分别进行多元线性回归分析、Logistic回归分析、K近邻和支持向量机分析,得到相应的拟合模型和各模型得分。但是各模型得分值远小于1,所以单独运用一种模型拟合效果并不理想。于是本文提出将以上各模型作为个体学习器,各模型得分占模型总得分的比重作为各学习器的权重,进行集成学习。经过试验,集成学习模型拟合很好,网络消息推广数得到很好的预测,提高了模型的泛化能力。最后,根据集成学习拟合模型的结果,为消息编辑者提出有效的措施,以达到提高效率,增加网络消息推广的目的。
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
shares的变化趋势图
兰州大学硕士学位论文基于集成学习的网络消息推广分析第四章实证分析4.1多元线性回归分析想要知道目标变量即消息推广数量的主要影响因素,最简单的方法是做多元线性回归分析。运用Python软件对主成分降维后的各因子与目标变量进行多元线性回归分析。该文主要采用最小二乘法估计参数。即利用公式ω=(XTX)1XTy估计未知参数。再将ω带入y=Xω中,从而得到目标变量y的估计值y。运用Python软件进行多元线性回归分析,经分析,本文截取从第400个样本开始到第500个样本为止的数据集,绘制实际目标变量的值y和多元线性回归估计出目标变量的值y,画出折线图,观察目标变量的拟合情况。运用多元线性回归模型拟合的目标变量的估计值和实际值的关系图如图4.1所示。图4.1多元线性回归估计值与实际值由图4.1可以看出模型的拟合效果不是很好。然后计算模型的得分,即模型的精确度,用来估计模型的拟合好坏。运用Python软件计算得到多元线性回归模型的得分score1=0.00115,得分值很低,远小于1。模型的得分值所表现的结果与图4.1所表现出的结果一致。所以该线性回归模型对目标变量的拟合效果不理想。27
兰州大学硕士学位论文基于集成学习的网络消息推广分析4.2Logistic模型分析由于多元线性回归模型对目标变量的拟合效果并不好,本文尝试运用Logis-tic回归模型进行分析。运用主成分分析法得到的主因子进行Logistic模型分析的公式为:y=11+e(ωTX+b),(4.1)拟合该模型,并估计该模型所对应的参数ω,b。本文运用Python软件对样本数据做Logistic回归模型分析。对目标变量,即消息推广数量进行模型的拟合。然后对数据集进行随机划分,使得样本的85%为训练集,剩余的样本为测试集进行模型的估计。由于样本量很多,所以本文截取从第400个样本开始到第500个样本为止的数据集,然后绘制目标变量的估计值和对应的实际值做折线图,观察模型的拟合情况,如图4.2所示。图4.2Logistic模型估计值与实际值由Logistic模型对目标变量,即消息推广数量的估计值与实际值图形,如图4.2可以看出模型的拟合效果并不好。为了更精确地了解模型的估计精度,计算模型的得分,由于模型的得分可以用来反映模型拟合的好坏程度。模型的得分值的取值范围为[0,1]如果模型的得分值越接近于1,就说明模型的拟合效果越好。运用Python软件计算得到模型的训练集得分值为score2=0.669,测试集的得分score2=0.674,可以知道模型的拟合效果不是特别好,但是比多元线性回归拟合的模型表现优异。28
【参考文献】:
期刊论文
[1]网络媒体新闻传播社会责任探索[J]. 潇潇. 记者摇篮. 2019(12)
[2]考虑数据时效性的高效KNN算法[J]. 王轶凡. 赤峰学院学报(自然科学版). 2019(11)
[3]“互联网+”时代下网络新闻编辑能力提升途径的思考[J]. 李雪. 中国传媒科技. 2019(04)
[4]集成学习在样本不平衡垃圾短信识别上的应用[J]. 熊健,邹东兴. 广州大学学报(自然科学版). 2018(05)
[5]当前我国网络新闻传播存在的问题及对策研究[J]. 李洋. 科技传播. 2018(02)
[6]媒介融合背景下融合新闻传播效应与策略研究[J]. 杨之汀. 西部广播电视. 2017(24)
[7]互联网背景下的新闻传播语言艺术研究[J]. 李萍. 西部广播电视. 2017(22)
[8]网络新闻编辑与受众心理[J]. 丁宁. 西部广播电视. 2016(16)
[9]网络新闻传播和传统新闻传播的异同[J]. 郭晓野. 新闻研究导刊. 2015(08)
本文编号:3039840
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
shares的变化趋势图
兰州大学硕士学位论文基于集成学习的网络消息推广分析第四章实证分析4.1多元线性回归分析想要知道目标变量即消息推广数量的主要影响因素,最简单的方法是做多元线性回归分析。运用Python软件对主成分降维后的各因子与目标变量进行多元线性回归分析。该文主要采用最小二乘法估计参数。即利用公式ω=(XTX)1XTy估计未知参数。再将ω带入y=Xω中,从而得到目标变量y的估计值y。运用Python软件进行多元线性回归分析,经分析,本文截取从第400个样本开始到第500个样本为止的数据集,绘制实际目标变量的值y和多元线性回归估计出目标变量的值y,画出折线图,观察目标变量的拟合情况。运用多元线性回归模型拟合的目标变量的估计值和实际值的关系图如图4.1所示。图4.1多元线性回归估计值与实际值由图4.1可以看出模型的拟合效果不是很好。然后计算模型的得分,即模型的精确度,用来估计模型的拟合好坏。运用Python软件计算得到多元线性回归模型的得分score1=0.00115,得分值很低,远小于1。模型的得分值所表现的结果与图4.1所表现出的结果一致。所以该线性回归模型对目标变量的拟合效果不理想。27
兰州大学硕士学位论文基于集成学习的网络消息推广分析4.2Logistic模型分析由于多元线性回归模型对目标变量的拟合效果并不好,本文尝试运用Logis-tic回归模型进行分析。运用主成分分析法得到的主因子进行Logistic模型分析的公式为:y=11+e(ωTX+b),(4.1)拟合该模型,并估计该模型所对应的参数ω,b。本文运用Python软件对样本数据做Logistic回归模型分析。对目标变量,即消息推广数量进行模型的拟合。然后对数据集进行随机划分,使得样本的85%为训练集,剩余的样本为测试集进行模型的估计。由于样本量很多,所以本文截取从第400个样本开始到第500个样本为止的数据集,然后绘制目标变量的估计值和对应的实际值做折线图,观察模型的拟合情况,如图4.2所示。图4.2Logistic模型估计值与实际值由Logistic模型对目标变量,即消息推广数量的估计值与实际值图形,如图4.2可以看出模型的拟合效果并不好。为了更精确地了解模型的估计精度,计算模型的得分,由于模型的得分可以用来反映模型拟合的好坏程度。模型的得分值的取值范围为[0,1]如果模型的得分值越接近于1,就说明模型的拟合效果越好。运用Python软件计算得到模型的训练集得分值为score2=0.669,测试集的得分score2=0.674,可以知道模型的拟合效果不是特别好,但是比多元线性回归拟合的模型表现优异。28
【参考文献】:
期刊论文
[1]网络媒体新闻传播社会责任探索[J]. 潇潇. 记者摇篮. 2019(12)
[2]考虑数据时效性的高效KNN算法[J]. 王轶凡. 赤峰学院学报(自然科学版). 2019(11)
[3]“互联网+”时代下网络新闻编辑能力提升途径的思考[J]. 李雪. 中国传媒科技. 2019(04)
[4]集成学习在样本不平衡垃圾短信识别上的应用[J]. 熊健,邹东兴. 广州大学学报(自然科学版). 2018(05)
[5]当前我国网络新闻传播存在的问题及对策研究[J]. 李洋. 科技传播. 2018(02)
[6]媒介融合背景下融合新闻传播效应与策略研究[J]. 杨之汀. 西部广播电视. 2017(24)
[7]互联网背景下的新闻传播语言艺术研究[J]. 李萍. 西部广播电视. 2017(22)
[8]网络新闻编辑与受众心理[J]. 丁宁. 西部广播电视. 2016(16)
[9]网络新闻传播和传统新闻传播的异同[J]. 郭晓野. 新闻研究导刊. 2015(08)
本文编号:3039840
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3039840.html