当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向信息分析与预测的网络搜索关键词集中度和相关度研究

发布时间:2019-09-08 19:09
【摘要】:基于网络搜索的信息分析与预测是依据用户的网络搜索行为来解释事物内在规律,并对事物未知变化趋势进行估计的一种信息分析与预测活动。它的起源和发展离不开互联网的普及和发展,尤其是网络搜索引擎的出现,为信息分析与预测提供了庞大的用户样本和海量的数据。国外研究人员在本世纪初就开始了该领域的实证研究, Ginsberg等人针对流感流行趋势的研究成为该领域研究的重要代表成果,也推动了基于网络搜索的信息分析与预测研究成为国内外学者广泛关注的研究内容。 本文以基于网络搜索的信息分析与预测活动中的重要环节——关键词选择作为研究对象,详细介绍了基于网络搜索的信息分析与预测活动的相关理论,阐述了面向信息分析与预测的网络搜索关键词选择的基本过程,详细介绍了关键词选择的两种方法,即关键词集中度和相关度,尝试使用这两种方法对观测关键词的选择进行实验效果分析。 全文共分六章,主要内容如下: (1)基于网络搜索的信息分析与预测的相关理论 本章系统阐述了基于网络搜索的信息分析与预测的概念、起源和发展、作用、特点,以及基于网络搜索的信息分析与预测的研究视角、内在机制及影响因素,并利用Ginsberg的45个流感关键词分析了基于网络搜索的信息分析与预测的局限性,最后提出了基于网络搜索的信息分析与预测的基本流程。 (2)面向信息分析与预测的网络搜索关键词选择的基本过程 本章重点介绍了分析预测过程的重要环节——关键词选择的过程。关键词、数据集以及分析预测模型是基于网络搜索的信息分析与预测的三个主要因素。基于网络搜索的信息分析与预测活动包括前期分析、关键词选择、相关分析及预测模型建立、效果验证、实施预测、动态修正等六个主要环节。关键词的选择过程包括任务准备、选择关键词数据来源、选择初始关键词、收集候选关键词以及确定观测关键词、确定关键词的分析与预测组合以及反馈修改等七个主要过程。关键词选择过程是从初始关键词、候选关键词到观测关键词的一个过程。对于最终用于分析与预测的观测关键词则具有典型的马太效应、长尾效应等现象,其离散分布则呈现出一种Zipf分布特征。 (3)关键词集中度分析 本章引入了关键词集中度、关键词移动平均集中度、关键词集中度变化率以及关键词移动平均集中度变化率等概念。以Ginsberg的45个流感关键词作为研究对象,发现在区分关键词“稳定—突变”特征的效果上,关键词集中度变化率要优于关键词集中度。 (4)关键词相关度分析 本章主要介绍了简单相关性分析和时序相关分析方法,包括pearson、spearman、时差相关、峰谷对应等相关分析方法。在与万科股票相关的关键词选择实例分析中,发现pearson、spearman可以有效地判断同步条件下的关键词相关性强弱特征,而时差相关分析方法则可以有效地识别关键词“领先—滞后”特征。 (5)H7N9禽流感关键词选择实验研究 本章主要结合2013年上半年爆发的H7N9禽流感疫情,运用关键词集中度和相关度分析方法,对与H7N9禽流感爆发有关的关键词进行比较分析,并得出了可用于不同研究领域的三组观测关键词表。 (6)对论文的整体进行总结和展望 本章对全文的研究工作进行总结,并对基于网络搜索的信息分析与预测研究的未来发展方向进行了展望,提出了三个有价值的研究问题。
【图文】:

全球互联网,互联网,移动应用,节点状态


选题背景和研究意义.1选题背景从上世纪90年代互联网诞生后,网络数据量急剧膨胀。据2009年英国卫报篇报道称,由于互联网社交网站、带有上网功能的移动电话和政府不断膨胀频监视器的同T 作用下,全球的数据总量已经达到4870亿GB?。图0-1是rl.com的internet map移动应用软件?展示的全球互联网节点的发展历程和趋三张图分别是1994、2012和2020年全球互联网节点状态。从第三张图可以,未来互联网的发展将完全渗透全球各个角落。

网站,流感,全球


搜索“流感”的人都真的患有流感,但当把与流感有关的搜索查询汇总按时间顺序统计时,发现许多搜索查询在流感季节确实会明显增多②(如图0-2所示,其中红色连续实线表示cdc数据,黑色分断实线表示搜索分析数据,,黑色虚线表示预测值区间)。通过对世界各地与流感相关搜索查询次数进行统计,谷歌便估测出世界上不同国家和地区的流感爆发情况? (如图0_3所示)。12 1 1 1 1~‘ 1 10 - I .-! 1 I -8 e - ;1 I -2004 2005 2006 2007 2008图0 - 2 google flu预测模型结果-.... ‘图0 - 3 google flu trends网站公布的全球流感监测图① http://www.cclc.gov/flu/index.htm? http://www.google.org/flutrends/about/how.html③ http://www.google.org/flutrends/7
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:G252.7

【参考文献】

相关期刊论文 前10条

1 王知津;韩正彪;;信息行为集成化研究框架初探[J];中国图书馆学报;2012年01期

2 邓晓旭;;网络传播价值体系论[J];陕西师范大学学报(哲学社会科学版);2010年06期

3 曾润喜;;网络舆情管控工作机制研究[J];图书情报工作;2009年18期

4 曾润喜;;网络舆情信息资源共享研究[J];情报杂志;2009年08期

5 胡军;张超;陈平雁;;非参数双变量相关分析方法Spearman和Kendall的Monte Carlo模拟比较[J];中国卫生统计;2008年06期

6 纪良纲;王慧娟;;商品流通规模监测预警指标的筛选——基于时差相关分析法的视角[J];经济与管理;2008年02期

7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期

8 李双双;陈毅文;李江予;;消费者网上购物决策模型分析[J];心理科学进展;2006年02期

9 曹双喜;邓小昭;;网络用户信息行为研究述略[J];情报杂志;2006年02期

10 何明升;网络消费方式的内在结构及其形成机理[J];哈尔滨工业大学学报(社会科学版);2002年01期

相关博士学位论文 前1条

1 王曰芬;文献计量法与内容分析法的综合研究[D];南京理工大学;2007年

相关硕士学位论文 前4条

1 邱娣;基于Web日志挖掘的用户信息需求识别研究[D];华中师范大学;2012年

2 王林生;我国网络消费影响因素理论与实证分析[D];重庆工商大学;2012年

3 刘华;论搜索数据在网络传播研究中的应用价值与途径[D];山东师范大学;2011年

4 王斓樾;用户行为分析在搜索引擎中的应用[D];沈阳工业大学;2007年



本文编号:2533401

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2533401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db3b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com