基于文本相似度算法的京津冀特色旅游线路开发
发布时间:2020-12-07 05:42
随着经济的发展和技术的进步,人们的休闲时间与时俱增,恩格尔系数与时俱减,人们可支配收入大幅度增加,生活水平提高了,对旅游的需求也越来越大。旅游已经成为现代人生活中重要的部分,并且旅游者已不满足传统的旅游产品,越来越倾向于选择个性化的,具有鲜明特色的休闲度假旅游产品。旅游收入在国内生产总值中的占比越来越大,加快旅游业发展成为推动我国经济发展的重要方式之一。中国旅游业发展已进入爆发式增长期,大众旅游时代即将全面来临。京津旅游资源丰富,河北省旅游景点众多,但景点分布分散,开发程度有待提高的问题明显。随着京津冀一体化格局的不断演变,整合京津冀旅游资源,开发具有区域特色和发展潜力的旅游线路,延伸京津游客的旅游线路长度;引进京津的旅游接待能力、管理经验和雄厚的资金实力,必将有利于调整京津冀区域旅游集散结构,加速河北旅游业的开发,促进京津冀旅游一体化发展,形成三地共享的特色旅游品牌。运用全新的旅游线路开发思路,将文本相似度算法应用到旅游线路开发中,通过描述景点的文本信息,分析得出景点的特征,将具有相同特征的景点归为一类,结合地理位置的特征将同类型的景点设计在一条线路中形成特色旅游线路。线路开发具有可...
【文章来源】:河北经贸大学河北省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
文本处理过程
2 文本处理文本通常是具有完整、系统含义的一个句子或多个句子,属于自然语言,是非结构化的信息。若要计算文本间的相似度,需要把这些非结构化的信息即文本,转化成计算机能够识别和计算的数字化的表示形式,这样才能计算出文本间的相似度。计算文本相似度前期需要完成的过程主要包括分词,去停用词、提取特征项、计算特征项权重,度量相似度等。2.1 文本预处理文本预处理过程包括分词和去停用词。本文将要分析的内容为从百度百科下载下来的共 90 个景点的文本信息,一个景点的信息为一个文本。下面以北京故宫博物院为例,介绍论文的实现过程,其文本内容如下图所示。
去掉这些分词并不影响文本的主要内容,遂也要将他们去掉。本文将整理得到的 1200 余个常见停用词组成停用词词典,去掉文中出现在停用词词典中的词。经过分词、去掉停用词之后的故宫博物院文本如下图所示。经过文本预处理之后,故宫博物院文本中就是一个一个独立的可以代表实际意义的词语,例如:明朝、清朝、两代、皇宫。
【参考文献】:
期刊论文
[1]张家口文化旅游资源开发利用之探究[J]. 田晓菁,牛志忠. 旅游纵览(下半月). 2016(01)
[2]基于京津冀客源市场的保定旅游商品开发对比研究[J]. 胡叶星寒,刘志平. 保定学院学报. 2014(05)
[3]“旅游兴市”战略背景下秦皇岛市旅游经济发展研究[J]. 华艳. 商场现代化. 2014(19)
[4]面向用户生成内容的短文本聚类算法研究[J]. 赵辉,刘怀亮. 现代图书情报技术. 2013(09)
[5]京津冀地区的旅游联动发展:模式、对象与路径[J]. 宁泽群,李享,吴泰岳,汪金辉. 北京联合大学学报(人文社会科学版). 2013(01)
[6]京津冀旅游协作共生共赢研究[J]. 孙振杰,董国英,李秀娥. 合作经济与科技. 2012(19)
[7]京津冀区域旅游经济空间结构研究[J]. 尚雪梅. 河北大学学报(哲学社会科学版). 2012(03)
[8]开启京津冀区域经济一体化新篇章——2011年首都圈发展高层论坛综述[J]. 吴庆玲,齐子翔. 首都经济贸易大学学报. 2012(03)
[9]文本聚类中文本表示和相似度计算研究综述[J]. 吴夙慧,成颖,郑彦宁,潘云涛. 情报科学. 2012(04)
[10]浅析河北省旅游资源保护与开发[J]. 张旭. 科技创新导报. 2011(26)
硕士论文
[1]河北滦州古城文化旅游开发研究[D]. 庞励.广西师范大学 2016
[2]基于向量空间模型的文本相似度算法研究[D]. 谭静.西南石油大学 2015
[3]京津冀协同发展下的保定市旅游产品体系的优化[D]. 张森森.河北大学 2015
[4]基于语义领域向量空间模型的文本相似度计算[D]. 唐果.云南大学 2013
[5]旅行社旅游线路节点设计分析[D]. 刘倩.西北大学 2006
[6]旅游线路设计研究[D]. 龚军姣.湖南师范大学 2005
[7]旅游线路优化中的运筹学问题[D]. 吴凯.东北财经大学 2003
本文编号:2902735
【文章来源】:河北经贸大学河北省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
文本处理过程
2 文本处理文本通常是具有完整、系统含义的一个句子或多个句子,属于自然语言,是非结构化的信息。若要计算文本间的相似度,需要把这些非结构化的信息即文本,转化成计算机能够识别和计算的数字化的表示形式,这样才能计算出文本间的相似度。计算文本相似度前期需要完成的过程主要包括分词,去停用词、提取特征项、计算特征项权重,度量相似度等。2.1 文本预处理文本预处理过程包括分词和去停用词。本文将要分析的内容为从百度百科下载下来的共 90 个景点的文本信息,一个景点的信息为一个文本。下面以北京故宫博物院为例,介绍论文的实现过程,其文本内容如下图所示。
去掉这些分词并不影响文本的主要内容,遂也要将他们去掉。本文将整理得到的 1200 余个常见停用词组成停用词词典,去掉文中出现在停用词词典中的词。经过分词、去掉停用词之后的故宫博物院文本如下图所示。经过文本预处理之后,故宫博物院文本中就是一个一个独立的可以代表实际意义的词语,例如:明朝、清朝、两代、皇宫。
【参考文献】:
期刊论文
[1]张家口文化旅游资源开发利用之探究[J]. 田晓菁,牛志忠. 旅游纵览(下半月). 2016(01)
[2]基于京津冀客源市场的保定旅游商品开发对比研究[J]. 胡叶星寒,刘志平. 保定学院学报. 2014(05)
[3]“旅游兴市”战略背景下秦皇岛市旅游经济发展研究[J]. 华艳. 商场现代化. 2014(19)
[4]面向用户生成内容的短文本聚类算法研究[J]. 赵辉,刘怀亮. 现代图书情报技术. 2013(09)
[5]京津冀地区的旅游联动发展:模式、对象与路径[J]. 宁泽群,李享,吴泰岳,汪金辉. 北京联合大学学报(人文社会科学版). 2013(01)
[6]京津冀旅游协作共生共赢研究[J]. 孙振杰,董国英,李秀娥. 合作经济与科技. 2012(19)
[7]京津冀区域旅游经济空间结构研究[J]. 尚雪梅. 河北大学学报(哲学社会科学版). 2012(03)
[8]开启京津冀区域经济一体化新篇章——2011年首都圈发展高层论坛综述[J]. 吴庆玲,齐子翔. 首都经济贸易大学学报. 2012(03)
[9]文本聚类中文本表示和相似度计算研究综述[J]. 吴夙慧,成颖,郑彦宁,潘云涛. 情报科学. 2012(04)
[10]浅析河北省旅游资源保护与开发[J]. 张旭. 科技创新导报. 2011(26)
硕士论文
[1]河北滦州古城文化旅游开发研究[D]. 庞励.广西师范大学 2016
[2]基于向量空间模型的文本相似度算法研究[D]. 谭静.西南石油大学 2015
[3]京津冀协同发展下的保定市旅游产品体系的优化[D]. 张森森.河北大学 2015
[4]基于语义领域向量空间模型的文本相似度计算[D]. 唐果.云南大学 2013
[5]旅行社旅游线路节点设计分析[D]. 刘倩.西北大学 2006
[6]旅游线路设计研究[D]. 龚军姣.湖南师范大学 2005
[7]旅游线路优化中的运筹学问题[D]. 吴凯.东北财经大学 2003
本文编号:2902735
本文链接:https://www.wllwen.com/guanlilunwen/lvyoujiudianguanlilunwen/2902735.html