基于特征向量构建的文本分类方法研究
发布时间:2022-02-19 01:41
文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。(2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌...
【文章来源】:西安理工大学陕西省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状及存在问题
1.2.1 国内外研究现状
1.2.2 现存问题及难点
1.3 研究框架及内容
1.3.1 研究框架
1.3.2 研究内容
1.4 本文组织结构
2 相关理论概述
2.1 传统文本表示方法
2.1.1 布尔模型
2.1.2 空间向量模型
2.1.3 主题模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分类方法
2.4.1 支持向量机模型
2.4.2 fast Text模型
2.5 评估指标
2.6 本章小结
3 基于WT-Glo Ve的词向量加权模型
3.1 理论基础
3.2 基于WT-Glo Ve的词向量加权模型
3.2.1 基于WDID-TFIDF的特征加权算法
3.2.2 基于WT-Glo Ve的词向量加权模型
3.3 实验与结果分析
3.3.1 实验数据
3.3.2 实验设置
3.3.3 实验分析
3.4 本章小结
4 基于STL-fast Text的文本分类模型
4.1 理论基础
4.2 基于STL-fast Text的文本分类模型
4.2.1 基于SLF-TFIDF的低频词加权算法
4.2.2 基于STL-fast Text的文本分类模型
4.3 实验与结果分析
4.3.1 实验数据
4.3.2 实验设置
4.3.3 实验分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[2]一种基于Sigmoid函数的改进协同过滤推荐算法[J]. 方耀宁,郭云飞,扈红超,兰巨龙. 计算机应用研究. 2013(06)
[3]基于SVM算法的文本分类技术研究[J]. 崔建明,刘建明,廖周宇. 计算机仿真. 2013(02)
[4]基于信息熵的TFIDF文本分类特征选择算法研究[J]. 陈国松,黄大荣. 湖北民族学院学报(自然科学版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴国忠. 计算机研究与发展. 2007(02)
[6]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[7]支持向量机(SVM)的研究进展[J]. 李晓宇,张新峰,沈兰荪. 测控技术. 2006(05)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]基于布尔模型的网页查重算法研究[D]. 连浩.中国科学院研究生院(计算技术研究所) 2006
本文编号:3631957
【文章来源】:西安理工大学陕西省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状及存在问题
1.2.1 国内外研究现状
1.2.2 现存问题及难点
1.3 研究框架及内容
1.3.1 研究框架
1.3.2 研究内容
1.4 本文组织结构
2 相关理论概述
2.1 传统文本表示方法
2.1.1 布尔模型
2.1.2 空间向量模型
2.1.3 主题模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分类方法
2.4.1 支持向量机模型
2.4.2 fast Text模型
2.5 评估指标
2.6 本章小结
3 基于WT-Glo Ve的词向量加权模型
3.1 理论基础
3.2 基于WT-Glo Ve的词向量加权模型
3.2.1 基于WDID-TFIDF的特征加权算法
3.2.2 基于WT-Glo Ve的词向量加权模型
3.3 实验与结果分析
3.3.1 实验数据
3.3.2 实验设置
3.3.3 实验分析
3.4 本章小结
4 基于STL-fast Text的文本分类模型
4.1 理论基础
4.2 基于STL-fast Text的文本分类模型
4.2.1 基于SLF-TFIDF的低频词加权算法
4.2.2 基于STL-fast Text的文本分类模型
4.3 实验与结果分析
4.3.1 实验数据
4.3.2 实验设置
4.3.3 实验分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[2]一种基于Sigmoid函数的改进协同过滤推荐算法[J]. 方耀宁,郭云飞,扈红超,兰巨龙. 计算机应用研究. 2013(06)
[3]基于SVM算法的文本分类技术研究[J]. 崔建明,刘建明,廖周宇. 计算机仿真. 2013(02)
[4]基于信息熵的TFIDF文本分类特征选择算法研究[J]. 陈国松,黄大荣. 湖北民族学院学报(自然科学版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴国忠. 计算机研究与发展. 2007(02)
[6]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[7]支持向量机(SVM)的研究进展[J]. 李晓宇,张新峰,沈兰荪. 测控技术. 2006(05)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]基于布尔模型的网页查重算法研究[D]. 连浩.中国科学院研究生院(计算技术研究所) 2006
本文编号:3631957
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3631957.html