基于网络游记文本挖掘的赴三亚国内旅游者偏好研究
发布时间:2021-01-18 17:00
随着我国人民经济水平的日益提高和旅游业的发展,游旅者的个性化需求日益凸显,掌握旅游者的偏好规律,成为满足游客个性化旅游需求,从而提高旅游服务水平的重要基础。另一方面随着我国互联网技术的普及和电子商务的发展,越来越多的旅游者通过网络选择旅游产品,实现旅游消费,分享旅游体验,记录旅游经历。因此,网络上积累了海量以自然语言文本为载体的网络游记。这些游记中包含了丰富旅游者行为信息,为研究旅游者偏好提供了新的途径。如何准确、高效地对网络游记文本中蕴含的信息进行挖掘,成为实现基于网络游记研究旅游者偏好这一新途径的核心问题。本研究即是围绕该问题展开,其主要研究内容如下:(1)研究适合网络游记数据的爬虫策略及网络游记数据预处理方法;(2)基于文本挖掘相关理论,构建旅游者偏好模型;(3)根据所构建的偏好模型,以三亚旅游者的游记数据为例进行实例研究,挖掘赴三亚国内游客偏好,为三亚市旅游业发展提供建议。传统的旅游者偏好研究主要通过问卷获取旅游者行为数据,数据获取成本高,且数据的客观性不强,量级有限。本文通过网络上积累的海量富含旅游者行为信息的网络游记数据,将文本挖掘相关理论引入到旅游者偏好的研究中,为准确、...
【文章来源】:海南大学海南省 211工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图1技术路线图??Fig.?1?The?technology?roadmap??1.5本文创新点??(1)结合网络游记文本数据的结构,改进现有的数据爬虫程序,使其更适??合爬取文本数据方面
图2网络爬虫基本结构图??Fig.2Web?crawler?basic?structure?diagram??网络爬虫可根据自身结构及作用分为三种类型:聚焦网络爬虫和增量式网??络爬虫,通用网络爬虫。??通用网络爬虫(General?Purpose?Web?Crawler)又被称为全网爬虫(Scalable??Web?Crawler),主要应用于搜索引擎爬取整个互联网的网页数据。由于爬取量??巨大,通用网络爬虫需要对爬取速度和存储空间要求很高,通常采用分布式爬??取。??聚焦网络爬虫(Focused?Web?Crawler)又被称为主题网络爬虫(Topical??Web?Crawler)。聚焦网络爬虫是选择性地进行网络爬虫,在实施网页爬取时要??进行主题筛选,尽量保证只爬取与主题相关的网页信息。和通用网络爬虫相比,??聚焦网络只需爬行与主题相关的页面,极大得降低了硬件成木和网络资源,聚??焦网络爬虫爬取到的网页相对较少,可以在较短时间内对网页执行更新操作,??适合爬取与特定主题有关的网页数据,很好的满足了特定人群对特定领域的信??息要求。??
图3具有社区结构的网络示意图??Fig.3Network?diagram?with?community?structure??社区发现作为复杂网络分析中的热点研宂问题具有非常广泛的应用价值。??它对了解系统的行为和个体的属性起着重要作用,为人们理解网络拓扑和功能??结构提供帮助,为利用和改造网络提供支持。本文利用游记文本数据构建复杂??网络,通过社区发现技术对游记文本中的偏好信息进行挖掘。??3.?4情感分析技术??情感分析也称意见挖掘或观点挖掘(opinion?mining),本质上是语义理解??的问题,主要是基于用户评论信息来分析出用户对某个特定事物的观点、看法、??情感倾向以及情感色彩。目前,文本情感分析技术主要可以分为基于规则的情??感分析、基于统计机器学习的情感分析、基于深度学习的情感分析三大类。??基于规则的情感分析是利用对应领域的情感词典中的词语来匹配句子中的??情感词,然后通过累加情感词的情感强度值来确定文本的总体情感倾向。此类??方法的优点是简单高效,缺点是可拓展性不强,受到领域知识、句式搭配、语??
【参考文献】:
期刊论文
[1]基于网络游记的婺源县乡村旅游体验研究[J]. 王蓉,黄朋涛,胡静,李亚娟. 资源科学. 2019(02)
[2]基于网络游记的广州旅游目的地形象感知研究[J]. 瞿华,梁燕坤. 广东社会科学. 2017(06)
[3]基于主题模型的大学学报文献挖掘研究——以计算机科学领域为例[J]. 阮剑,杨海霞,黄瑱. 情报工程. 2017(04)
[4]基于微博标签和LDA的微博主题提取算法[J]. 邓丹君,姚莉. 计算机与数字工程. 2017(05)
[5]基于LDA主题模型的移动应用相似度构建方法[J]. 褚征,于炯,王佳玉,王跃飞. 计算机应用. 2017(04)
[6]基于网络文本的目的地旅游形象游客感知与官方传播对比研究——以福建永定土楼为例[J]. 张文亭,骆培聪. 福建师范大学学报(自然科学版). 2017(01)
[7]旅游地感知结构重构——基于文本与复杂网络分析的研究[J]. 钟栎娜. 旅游学刊. 2015(08)
[8]机器人产业技术机会发现研究——基于专利文本挖掘[J]. 龚惠群,刘琼泽,黄超. 科技进步与对策. 2014(05)
[9]文本图表示模型及其在文本挖掘中的应用[J]. 李纲,毛进. 情报学报. 2013 (12)
[10]基于网络游记的西藏旅游目的地形象探析[J]. 杨昆,姬梅,陈娅玲. 旅游论坛. 2013(03)
本文编号:2985310
【文章来源】:海南大学海南省 211工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图1技术路线图??Fig.?1?The?technology?roadmap??1.5本文创新点??(1)结合网络游记文本数据的结构,改进现有的数据爬虫程序,使其更适??合爬取文本数据方面
图2网络爬虫基本结构图??Fig.2Web?crawler?basic?structure?diagram??网络爬虫可根据自身结构及作用分为三种类型:聚焦网络爬虫和增量式网??络爬虫,通用网络爬虫。??通用网络爬虫(General?Purpose?Web?Crawler)又被称为全网爬虫(Scalable??Web?Crawler),主要应用于搜索引擎爬取整个互联网的网页数据。由于爬取量??巨大,通用网络爬虫需要对爬取速度和存储空间要求很高,通常采用分布式爬??取。??聚焦网络爬虫(Focused?Web?Crawler)又被称为主题网络爬虫(Topical??Web?Crawler)。聚焦网络爬虫是选择性地进行网络爬虫,在实施网页爬取时要??进行主题筛选,尽量保证只爬取与主题相关的网页信息。和通用网络爬虫相比,??聚焦网络只需爬行与主题相关的页面,极大得降低了硬件成木和网络资源,聚??焦网络爬虫爬取到的网页相对较少,可以在较短时间内对网页执行更新操作,??适合爬取与特定主题有关的网页数据,很好的满足了特定人群对特定领域的信??息要求。??
图3具有社区结构的网络示意图??Fig.3Network?diagram?with?community?structure??社区发现作为复杂网络分析中的热点研宂问题具有非常广泛的应用价值。??它对了解系统的行为和个体的属性起着重要作用,为人们理解网络拓扑和功能??结构提供帮助,为利用和改造网络提供支持。本文利用游记文本数据构建复杂??网络,通过社区发现技术对游记文本中的偏好信息进行挖掘。??3.?4情感分析技术??情感分析也称意见挖掘或观点挖掘(opinion?mining),本质上是语义理解??的问题,主要是基于用户评论信息来分析出用户对某个特定事物的观点、看法、??情感倾向以及情感色彩。目前,文本情感分析技术主要可以分为基于规则的情??感分析、基于统计机器学习的情感分析、基于深度学习的情感分析三大类。??基于规则的情感分析是利用对应领域的情感词典中的词语来匹配句子中的??情感词,然后通过累加情感词的情感强度值来确定文本的总体情感倾向。此类??方法的优点是简单高效,缺点是可拓展性不强,受到领域知识、句式搭配、语??
【参考文献】:
期刊论文
[1]基于网络游记的婺源县乡村旅游体验研究[J]. 王蓉,黄朋涛,胡静,李亚娟. 资源科学. 2019(02)
[2]基于网络游记的广州旅游目的地形象感知研究[J]. 瞿华,梁燕坤. 广东社会科学. 2017(06)
[3]基于主题模型的大学学报文献挖掘研究——以计算机科学领域为例[J]. 阮剑,杨海霞,黄瑱. 情报工程. 2017(04)
[4]基于微博标签和LDA的微博主题提取算法[J]. 邓丹君,姚莉. 计算机与数字工程. 2017(05)
[5]基于LDA主题模型的移动应用相似度构建方法[J]. 褚征,于炯,王佳玉,王跃飞. 计算机应用. 2017(04)
[6]基于网络文本的目的地旅游形象游客感知与官方传播对比研究——以福建永定土楼为例[J]. 张文亭,骆培聪. 福建师范大学学报(自然科学版). 2017(01)
[7]旅游地感知结构重构——基于文本与复杂网络分析的研究[J]. 钟栎娜. 旅游学刊. 2015(08)
[8]机器人产业技术机会发现研究——基于专利文本挖掘[J]. 龚惠群,刘琼泽,黄超. 科技进步与对策. 2014(05)
[9]文本图表示模型及其在文本挖掘中的应用[J]. 李纲,毛进. 情报学报. 2013 (12)
[10]基于网络游记的西藏旅游目的地形象探析[J]. 杨昆,姬梅,陈娅玲. 旅游论坛. 2013(03)
本文编号:2985310
本文链接:https://www.wllwen.com/guanlilunwen/lvyoujiudianguanlilunwen/2985310.html