基于云南旅游在线网站吐槽数据的文本挖掘
发布时间:2022-01-06 15:25
网络评论文本通常有负面和正面,我们称带有负面情绪的这些投诉文本数据为吐槽数据。目前,在文本挖掘这一热点研究领域中,针对旅游投诉和吐槽数据的相关研究尚不多见。旅游业作为云南的传统支柱产业之一,云南旅游市场的服务品质备受舆论关注。近年来,云南旅游市场乱象丛生,负面事件及其引爆的网络舆情接连不断,致使云南旅游的整体形象屡屡受创。因此,基于游客的在线投诉和网络吐槽等负面舆情数据进行自然语言处理与文本挖掘,助推相关的政府部门和景区景点针对社会公众和舆论关切的具体问题主动及时进行回应和改革,从而为云南旅游市场秩序整治和旅游产业转型升级做出积极贡献。本文利用python爬取了云南就爱去旅行网站游舆专栏新闻数据和吐槽专栏的游客吐槽数据,对该数据进行文本挖掘,从旅游者角度,对主要受到游客投诉吐槽的地区以及主要的吐槽类型,各地区的受吐槽原因进行分析。首先,文章基于高频词的提取,得到了游舆专栏新闻数据涉及的热点问题,然后基于吐槽数据的吐槽地点和吐槽类型数据,分别从地理维度和时间维度对吐槽类型进行了对比分析,得到云南主要受到吐槽的地区为昆明,丽江,大理,昆明的主要被吐槽类型为购物,交通,航空,大理的主要被吐槽...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.1:?LDA概率图模型展示??
,,,困惑度,这就导致模型不能得到较好的词向量。??2013年,TomasMikolov的团队研发出了?word2vec技术,该技术主要是挖掘的方法能进行语言之间的结构建模,并以“语言空间”代表词语之关系,以向量集合表示词语空间,是一种浅层双层的神经网络,用来训建构语言学之词文本。该技术有两种模型,Skip-Gmm模型和CBOW模两种模型依然是基于语言模型,但模型的训练目标发生了变化,主要以的词嵌入为目标。CBOW和Skip-Gram模型都通过对模型进行简化,来效率,并通过负采样和层次化softmax对模型训练过程进行优化。??BOW模型的任务是,利用给定词语依赖于上下文的词语的词向量,预测词向量,而Skip-Gram模型是利用某一特定词的词向量,预测该词对应词向量。本文所涉及的词向量方法就是利用word2VeC中的CBOW模型分析。下面给出了?CBOW模型的示意图。??
台上信息进行实时监测,我们通过处理新闻数据得到的正负评论数,基本能反应??云南这一整年的舆情信息。我们选取了?2018年一整年的正负评论数,画出2018??年的正负评论数折线图,如图3.1所示:???评论??40000?-?涵评论;??30000??20000??日期??图3.1:?2018年的正负评论时间序列图??通过上图我们可以发现,2018年的正负评论数一直保持一个相对稳定的水平,??但在2018年8月26日,负面评论数达到了?45937条,查看数据发现,当天的重??要报道是“准大学生云南旅游失联”,导致该天附近的数据出现了大的波动,其??14??
【参考文献】:
期刊论文
[1]文本挖掘领域研究现状与趋势分析[J]. 陶洁. 武汉船舶职业技术学院学报. 2018(02)
[2]基于大数据用户生成内容的丽江旅游形象危机舆情调查[J]. 何少琪. 旅游纵览(下半月). 2018(05)
[3]基于旅游者视角的旅游投诉特征与影响因素分析——以云南省为例[J]. 吕宛青,张冬,李露露,杜靖川. 资源开发与市场. 2017(11)
[4]基于文本挖掘的广西钦北防游客意见与建议的比较研究[J]. 林选妙. 市场论坛. 2017(07)
[5]基于文本挖掘的典型旅游网站旅游分享比较研究——以甘肃省为例[J]. 王耀斌,杨玲,孙传玲,蒋金萍. 资源开发与市场. 2017(01)
[6]旅游业大数据来源与获取分析[J]. 卫俊杰. 旅游纵览(下半月). 2016(11)
[7]基于网络文本分析的旅游者行为研究——以六安市为例[J]. 余佳华,黄润. 巢湖学院学报. 2016(05)
[8]旅游目的地意象感知的维度辨识:基于网络游记的文本分析[J]. 那梦帆,谢彦君. 旅游论坛. 2016(03)
[9]基于网络文本分析云南石林旅游形象感知[J]. 钟彦清,罗明春. 新西部(理论版). 2016(06)
[10]基于数据挖掘的运营商客户投诉分析方法研究[J]. 唐盛涛. 互联网天地. 2016(03)
硕士论文
[1]面向旅游在线评论的文本挖掘方法研究[D]. 严仲培.合肥工业大学 2018
[2]基于旅游博客的旅游目的地游客满意度评价研究[D]. 耿铭泽.海南大学 2010
本文编号:3572703
【文章来源】:云南大学云南省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.1:?LDA概率图模型展示??
,,,困惑度,这就导致模型不能得到较好的词向量。??2013年,TomasMikolov的团队研发出了?word2vec技术,该技术主要是挖掘的方法能进行语言之间的结构建模,并以“语言空间”代表词语之关系,以向量集合表示词语空间,是一种浅层双层的神经网络,用来训建构语言学之词文本。该技术有两种模型,Skip-Gmm模型和CBOW模两种模型依然是基于语言模型,但模型的训练目标发生了变化,主要以的词嵌入为目标。CBOW和Skip-Gram模型都通过对模型进行简化,来效率,并通过负采样和层次化softmax对模型训练过程进行优化。??BOW模型的任务是,利用给定词语依赖于上下文的词语的词向量,预测词向量,而Skip-Gram模型是利用某一特定词的词向量,预测该词对应词向量。本文所涉及的词向量方法就是利用word2VeC中的CBOW模型分析。下面给出了?CBOW模型的示意图。??
台上信息进行实时监测,我们通过处理新闻数据得到的正负评论数,基本能反应??云南这一整年的舆情信息。我们选取了?2018年一整年的正负评论数,画出2018??年的正负评论数折线图,如图3.1所示:???评论??40000?-?涵评论;??30000??20000??日期??图3.1:?2018年的正负评论时间序列图??通过上图我们可以发现,2018年的正负评论数一直保持一个相对稳定的水平,??但在2018年8月26日,负面评论数达到了?45937条,查看数据发现,当天的重??要报道是“准大学生云南旅游失联”,导致该天附近的数据出现了大的波动,其??14??
【参考文献】:
期刊论文
[1]文本挖掘领域研究现状与趋势分析[J]. 陶洁. 武汉船舶职业技术学院学报. 2018(02)
[2]基于大数据用户生成内容的丽江旅游形象危机舆情调查[J]. 何少琪. 旅游纵览(下半月). 2018(05)
[3]基于旅游者视角的旅游投诉特征与影响因素分析——以云南省为例[J]. 吕宛青,张冬,李露露,杜靖川. 资源开发与市场. 2017(11)
[4]基于文本挖掘的广西钦北防游客意见与建议的比较研究[J]. 林选妙. 市场论坛. 2017(07)
[5]基于文本挖掘的典型旅游网站旅游分享比较研究——以甘肃省为例[J]. 王耀斌,杨玲,孙传玲,蒋金萍. 资源开发与市场. 2017(01)
[6]旅游业大数据来源与获取分析[J]. 卫俊杰. 旅游纵览(下半月). 2016(11)
[7]基于网络文本分析的旅游者行为研究——以六安市为例[J]. 余佳华,黄润. 巢湖学院学报. 2016(05)
[8]旅游目的地意象感知的维度辨识:基于网络游记的文本分析[J]. 那梦帆,谢彦君. 旅游论坛. 2016(03)
[9]基于网络文本分析云南石林旅游形象感知[J]. 钟彦清,罗明春. 新西部(理论版). 2016(06)
[10]基于数据挖掘的运营商客户投诉分析方法研究[J]. 唐盛涛. 互联网天地. 2016(03)
硕士论文
[1]面向旅游在线评论的文本挖掘方法研究[D]. 严仲培.合肥工业大学 2018
[2]基于旅游博客的旅游目的地游客满意度评价研究[D]. 耿铭泽.海南大学 2010
本文编号:3572703
本文链接:https://www.wllwen.com/guanlilunwen/lvyoujiudianguanlilunwen/3572703.html