基于字符级卷积神经网络的民宿顾客意见挖掘
发布时间:2021-04-27 10:00
在线评论蕴含着丰富的顾客意见信息,传统意见挖掘的方式具有数据稀疏和样本分布不均匀的问题,本文以公开在线非结构化数据为基础,通过数据的结构化抽取、无监督聚类和深度学习分类技术,以在线民宿的评论数据开展了顾客意见挖掘方面的研究,最后将多种文本分类算法进行对比实验,叙述了本文模型在情感分析上的优势,具体的研究贡献体现在以下三个方面。第一,设计了基于Requests POST和Scrapy相结合的携程民宿评论数据采集方法。该方式针对民宿板块网页的特殊结构,利用Requests POST解决网页动态加载的问题,结合Scrapy解决爬虫多线程采集的问题,通过这两种技术相结合所得到的数据,可以方便的对数据进行抽取,并将处理后的结果自动存入数据库。仿真实验表明,该方式可以增加携程民宿板块的数据采集效率,在采集速度和质量上均优于基于网页加载的Selenium技术。第二,设计了基于隐含狄利克雷聚类的民宿主题属性词典构造方法。首先民宿评论容易一句中出现多个民宿主题,以标点符号为间隔能使得分散在一段评论中的不同评价主体通过标点符号被分开,通过词性标注技术选取每段评论的名词,然后利用多种向量化方式对评论文本进行...
【文章来源】:重庆师范大学重庆市
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
英文摘要
1 绪论
1.1 研究背景和意义
1.2 民宿意见挖掘应用现状
1.3 研究内容
1.4 本文组织结构
2 意见挖掘相关技术及选型
2.1 网络爬虫相关技术及选型
2.1.1 基于Requests的爬虫技术
2.1.2 基于Scrapy的爬虫技术
2.1.3 爬虫技术分析及选型
2.2 主题提取相关技术及选型
2.2.1 基于统计的主题提取
2.2.2 基于概率的主题提取
2.2.3 基于距离的主题提取
2.2.4 主题提取技术分析及选型
2.3 文本情感分析相关技术及选型
2.3.1 基于规则的情感分析
2.3.2 基于传统机器学习的情感分析
2.3.3 基于深度学习的情感分析
2.3.4 情感分析技术分析及选型
2.4 本章小结
3 结合Requests和 Scrapy的携程民宿评论采集
3.1 网站页面结构分析
3.1.1 网页结构
3.1.2 网页解析
3.1.3 链接拼接
3.2 数据采集系统设计与实现
3.2.1 网络爬虫模块化设计
3.2.2 网络爬虫定制化改造
3.2.3 数据表结构
3.3 采集性能测试
3.4 本章小结
4 基于LDA的民宿主题提取
4.1 LDA主题提取算法
4.2 实验设计
4.2.1 流程设计
4.2.2 主题建模
4.2.3 主题抽取
4.3 实验分析
4.4 本章小结
5 基于字符级卷积神经网络的情感强度识别
5.1 基于弱监督预训练构建数据集
5.2 卷积神经网络情感分析
5.2.1 字符向量输入层
5.2.2 一维卷积层
5.2.3 全连接层
5.2.4 Dropout层
5.2.5 情感极性输出层
5.3 民宿意见挖掘
5.3.1 数据预处理
5.3.2 实验环境
5.3.3 流程设计
5.3.4 模型评价
5.3.5 系统实现
5.4 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
附录A:作者攻读硕士学位期间发表论文及科研情况
致谢
【参考文献】:
期刊论文
[1]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[2]基于主题—情感挖掘模型的微博评论情感分类研究[J]. 朱晓霞,宋嘉欣,孟建芳. 情报理论与实践. 2019(05)
[3]基于K-means聚类的调查问卷动态赋权统计方法[J]. 李晓英,周大涛. 统计与决策. 2018(23)
[4]融合演化特征的公共安全事件微博情感分析[J]. 曾子明,万品玉. 情报科学. 2018(12)
[5]含追加的在线评论有用性感知影响因素研究——基于眼动实验[J]. 王翠翠,高慧. 现代情报. 2018(12)
[6]一种基于共词网络的社交媒体数据主题挖掘方法[J]. 王艳东,付小康,李萌萌. 武汉大学学报(信息科学版). 2018(12)
[7]基于CSSCI的我国隐性知识研究的文献计量分析[J]. 王晓红,任晓菲. 管理学报. 2018(12)
[8]基于SERVQUAL模型的旅游景区服务质量问题研究——以鼓浪屿为例[J]. 步会敏,魏敏,林娜. 中国农业资源与区划. 2018(09)
[9]基于Staay多情感等级的汽车消费者行为偏好研究[J]. 周福礼,侯建,布朝辉,杜建辉. 工业工程与管理. 2019(01)
[10]中国共享民宿的制度规制路径探析[J]. 姚瑶. 行政管理改革. 2018(10)
硕士论文
[1]基于游客感知的乡村旅游公共卫生服务质量评价研究[D]. 孙凯.西北大学 2018
本文编号:3163263
【文章来源】:重庆师范大学重庆市
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
英文摘要
1 绪论
1.1 研究背景和意义
1.2 民宿意见挖掘应用现状
1.3 研究内容
1.4 本文组织结构
2 意见挖掘相关技术及选型
2.1 网络爬虫相关技术及选型
2.1.1 基于Requests的爬虫技术
2.1.2 基于Scrapy的爬虫技术
2.1.3 爬虫技术分析及选型
2.2 主题提取相关技术及选型
2.2.1 基于统计的主题提取
2.2.2 基于概率的主题提取
2.2.3 基于距离的主题提取
2.2.4 主题提取技术分析及选型
2.3 文本情感分析相关技术及选型
2.3.1 基于规则的情感分析
2.3.2 基于传统机器学习的情感分析
2.3.3 基于深度学习的情感分析
2.3.4 情感分析技术分析及选型
2.4 本章小结
3 结合Requests和 Scrapy的携程民宿评论采集
3.1 网站页面结构分析
3.1.1 网页结构
3.1.2 网页解析
3.1.3 链接拼接
3.2 数据采集系统设计与实现
3.2.1 网络爬虫模块化设计
3.2.2 网络爬虫定制化改造
3.2.3 数据表结构
3.3 采集性能测试
3.4 本章小结
4 基于LDA的民宿主题提取
4.1 LDA主题提取算法
4.2 实验设计
4.2.1 流程设计
4.2.2 主题建模
4.2.3 主题抽取
4.3 实验分析
4.4 本章小结
5 基于字符级卷积神经网络的情感强度识别
5.1 基于弱监督预训练构建数据集
5.2 卷积神经网络情感分析
5.2.1 字符向量输入层
5.2.2 一维卷积层
5.2.3 全连接层
5.2.4 Dropout层
5.2.5 情感极性输出层
5.3 民宿意见挖掘
5.3.1 数据预处理
5.3.2 实验环境
5.3.3 流程设计
5.3.4 模型评价
5.3.5 系统实现
5.4 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
附录A:作者攻读硕士学位期间发表论文及科研情况
致谢
【参考文献】:
期刊论文
[1]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[2]基于主题—情感挖掘模型的微博评论情感分类研究[J]. 朱晓霞,宋嘉欣,孟建芳. 情报理论与实践. 2019(05)
[3]基于K-means聚类的调查问卷动态赋权统计方法[J]. 李晓英,周大涛. 统计与决策. 2018(23)
[4]融合演化特征的公共安全事件微博情感分析[J]. 曾子明,万品玉. 情报科学. 2018(12)
[5]含追加的在线评论有用性感知影响因素研究——基于眼动实验[J]. 王翠翠,高慧. 现代情报. 2018(12)
[6]一种基于共词网络的社交媒体数据主题挖掘方法[J]. 王艳东,付小康,李萌萌. 武汉大学学报(信息科学版). 2018(12)
[7]基于CSSCI的我国隐性知识研究的文献计量分析[J]. 王晓红,任晓菲. 管理学报. 2018(12)
[8]基于SERVQUAL模型的旅游景区服务质量问题研究——以鼓浪屿为例[J]. 步会敏,魏敏,林娜. 中国农业资源与区划. 2018(09)
[9]基于Staay多情感等级的汽车消费者行为偏好研究[J]. 周福礼,侯建,布朝辉,杜建辉. 工业工程与管理. 2019(01)
[10]中国共享民宿的制度规制路径探析[J]. 姚瑶. 行政管理改革. 2018(10)
硕士论文
[1]基于游客感知的乡村旅游公共卫生服务质量评价研究[D]. 孙凯.西北大学 2018
本文编号:3163263
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3163263.html
最近更新
教材专著