基于词向量的文本倾向分析的向量表示方法研究
发布时间:2023-05-05 22:41
随着工业和信息技术的进步,人类对自然环境的影响逐渐增大,环境变化同时影响人类社会的活动。了解人们对环境变化的想法可以在相关工作中更准确快速地发现亟待解决的问题。而在自媒体的时代,人们可以在各种平台发表自己的观点,这些观点对其他人具有参考价值。由于非常多的观点以文本的形式发表,且数量较多,涉及的领域各不相同,用计算机对这些文本进行自动处理已经成为研究的热点。这类任务被称为倾向分析任务,它可以分为对整篇文档进行分析的粗粒度倾向分析,以及对句子和词语进行分析的细粒度倾向分析。对于处理人类的自然语言的任务,文本表示一直是非常关键的环节。特征提取和特征加权方法采用词袋模型,存在缺少语义信息、高维度和高稀疏性的问题。本文将特征加权、词嵌入方法Word2Vec与话题模型相结合,在粗细粒度上均提出新的文本表示方法,新方法的模型维度低且涵盖更多语义信息。对篇章级的文档表示,本文提出一种无监督的基于特征概率嵌入向量的文本表示方法。它有三个模型,分别是FTW、FTC和FT2,主要用于短文本。本文的方法从词语的角度增加语义信息,从空间的角度增加向量空间模型的表达能力,极大地降低了文档向量的维度,可以很好地解决...
【文章页数】:107 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.1.1 文本倾向分析的提出
1.1.2 文本倾向分析的应用
1.2 国内外研究现状
1.2.1 篇章级倾向分析
1.2.2 句子级和词语级倾向分析
1.3 本文研究内容和结构
1.3.1 研究内容
1.3.2 本文结构
第二章 文本向量表示的基本方法
2.1 NLP的方法概述
2.2 特征提取与加权
2.2.1 无监督的特征加权方法
2.2.2 有监督的特征加权方法
2.3 LDA话题模型
2.4 Word2Vec词嵌入
2.5 本章小结
第三章 基于特征概率嵌入的文档表示方法
3.1 引言
3.2 相关模型与分类方法
3.2.1 话题模型与Lda2vec
3.3 特征概率嵌入向量模型
3.3.1 基于词向量和特征加权的文档表示方法
3.3.2 基于词向量和话题概率模型的文档表示方法
3.3.3 基于特征概率嵌入向量的文档表示方法
3.4 实验与结果分析
3.4.1 语料库
3.4.2 预处理
3.4.3 实验设置
3.4.4 文本分类器
3.4.5 性能评估
3.4.6 实验结果和讨论
3.5 本章小结
第四章 领域相关的词表示方法
4.1 引言
4.2 基于频率交叉熵和模糊词模型的词向量表示方法
4.2.1 基于频率交叉熵的特征提取方法
4.2.2 基于模糊词模型的词向量表示方法
4.3 实验与结果分析
4.3.1 语料库、参数和评价指标
4.3.2 实验结果和讨论
4.4 本章小结
第五章 基于相似特征频率的文本表示方法
5.1 引言
5.2 相关特征加权方法
5.3 基于特征相似频率的话题抽取方法
5.3.1 STF-LDA模型
5.3.2 TS-LDA模型
5.4 实验结果及分析
5.4.1 评估方法
5.4.2 实验及分析
5.5 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
在学期间公开发表论文及著作情况
本文编号:3808501
【文章页数】:107 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.1.1 文本倾向分析的提出
1.1.2 文本倾向分析的应用
1.2 国内外研究现状
1.2.1 篇章级倾向分析
1.2.2 句子级和词语级倾向分析
1.3 本文研究内容和结构
1.3.1 研究内容
1.3.2 本文结构
第二章 文本向量表示的基本方法
2.1 NLP的方法概述
2.2 特征提取与加权
2.2.1 无监督的特征加权方法
2.2.2 有监督的特征加权方法
2.3 LDA话题模型
2.4 Word2Vec词嵌入
2.5 本章小结
第三章 基于特征概率嵌入的文档表示方法
3.1 引言
3.2 相关模型与分类方法
3.2.1 话题模型与Lda2vec
3.3 特征概率嵌入向量模型
3.3.1 基于词向量和特征加权的文档表示方法
3.3.2 基于词向量和话题概率模型的文档表示方法
3.3.3 基于特征概率嵌入向量的文档表示方法
3.4 实验与结果分析
3.4.1 语料库
3.4.2 预处理
3.4.3 实验设置
3.4.4 文本分类器
3.4.5 性能评估
3.4.6 实验结果和讨论
3.5 本章小结
第四章 领域相关的词表示方法
4.1 引言
4.2 基于频率交叉熵和模糊词模型的词向量表示方法
4.2.1 基于频率交叉熵的特征提取方法
4.2.2 基于模糊词模型的词向量表示方法
4.3 实验与结果分析
4.3.1 语料库、参数和评价指标
4.3.2 实验结果和讨论
4.4 本章小结
第五章 基于相似特征频率的文本表示方法
5.1 引言
5.2 相关特征加权方法
5.3 基于特征相似频率的话题抽取方法
5.3.1 STF-LDA模型
5.3.2 TS-LDA模型
5.4 实验结果及分析
5.4.1 评估方法
5.4.2 实验及分析
5.5 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
在学期间公开发表论文及著作情况
本文编号:3808501
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3808501.html