文本挖掘中基于对比分析的潜在方面观点算法研究
发布时间:2023-10-15 17:53
在全球信息化快速发展的今天,计算机和网络技术的广泛推广和应用,直接导致了网络中海量数据的涌现,为了有效的从海量数据中获取价值信息,数据挖掘技术得到了飞速的发展。其中,文本数据挖掘作为数据挖掘领域的重要分支,旨在分析网络中蕴含丰富信息的文本数据。本文主要针对文本数据挖掘中的潜在方面观点挖掘领域展开研究,在整理、总结相关历史文献的基础上,发现过去在该领域的研究存在以下两个问题,1.忽视用户评论个性化问题,无法客观的推断方面评分。2.忽视用户“潜台词”信息。为了解决上述两个问题,本文采用对比挖掘的思想,利用用户历史文本数据分析用户评论行为习惯,通过对比计算用户“关注度”和“情感强度”两个影响因素,将用户习惯与特定的用户评论进行对比,剔除用户评论个性化影响,并同时发现用户的“潜台词”信息。最终,在综合考虑用户评论个性化和用户“潜台词”信息的基础上,推断方面权重、计算方面评分。本文实验部分通过爬虫技术获取评论文本数据,设计实现对比挖掘算法实验。并对实验结果分别从定性和定量的两个测度进行验证,说明算法可行性及效果。
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.2.1 文本数据挖掘
1.2.2 潜在方面观点挖掘现状
1.3 课题研究内容
1.4 研究思路
1.5 研究论文组织结构
1.6 本章小结
第二章 潜在方面观点挖掘领域相关理论定义
2.1 相关符号定义
2.2 相关概念介绍与定义
2.2.1 方面关注度
2.2.2 情感词敏感度
2.2.3 情感词极性
2.2.4 情感强度
2.3 本章小结
第三章 算法设计
3.1 对比算法流程设计
3.2 方面识别与情感词匹配
3.2.1 识别方面
3.2.2 发现与匹配情感词
3.3 对比计算关注度
3.4 对比计算情感强度
3.5 方面权重向量化
3.6 方面评分优化模型
3.7 本章小结
第四章 对比算法实现
4.1 数据获取
4.1.1 技术介绍
4.1.2 设计实现
4.1.3 数据描述
4.2 数据存储
4.3 数据分析
4.3.1 数据预处理
4.3.2 数据处理
4.3.3 结果展示
4.4 本章小结
第五章 算法有效性分析
5.1 定性分析
5.1.1 关注度
5.1.2 情感词敏感度
5.1.3 情感强度
5.1.4 用户“潜台词”分析
5.1.5 方面评分结果分析
5.2 定量分析
5.2.1 平均相关系数
5.2.2 客观均方误差
5.2.3 平均方面排序错误率
5.2.4 方面评分方差
5.3 本章小结
第六章 总结展望
致谢
参考文献
攻读学位期间参加科研情况及获得的学术成果
本文编号:3854378
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.2.1 文本数据挖掘
1.2.2 潜在方面观点挖掘现状
1.3 课题研究内容
1.4 研究思路
1.5 研究论文组织结构
1.6 本章小结
第二章 潜在方面观点挖掘领域相关理论定义
2.1 相关符号定义
2.2 相关概念介绍与定义
2.2.1 方面关注度
2.2.2 情感词敏感度
2.2.3 情感词极性
2.2.4 情感强度
2.3 本章小结
第三章 算法设计
3.1 对比算法流程设计
3.2 方面识别与情感词匹配
3.2.1 识别方面
3.2.2 发现与匹配情感词
3.3 对比计算关注度
3.4 对比计算情感强度
3.5 方面权重向量化
3.6 方面评分优化模型
3.7 本章小结
第四章 对比算法实现
4.1 数据获取
4.1.1 技术介绍
4.1.2 设计实现
4.1.3 数据描述
4.2 数据存储
4.3 数据分析
4.3.1 数据预处理
4.3.2 数据处理
4.3.3 结果展示
4.4 本章小结
第五章 算法有效性分析
5.1 定性分析
5.1.1 关注度
5.1.2 情感词敏感度
5.1.3 情感强度
5.1.4 用户“潜台词”分析
5.1.5 方面评分结果分析
5.2 定量分析
5.2.1 平均相关系数
5.2.2 客观均方误差
5.2.3 平均方面排序错误率
5.2.4 方面评分方差
5.3 本章小结
第六章 总结展望
致谢
参考文献
攻读学位期间参加科研情况及获得的学术成果
本文编号:3854378
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3854378.html