基于主题模型的短文本分类方法研究与实现
发布时间:2021-04-17 14:47
近年来,伴随互联网的快速发展以及生活节奏的加快,人们越来越习惯于从互联网平台中获取和分享信息,这也导致网络中产生了大量的短文本信息。一些内容分发、信息检索、社交网络平台,均是产生短文本信息的来源。如果我们能从海量的信息中提取相关主题并将其分门别类,可以从一定程度上减轻信息过载对我们的影响。因此,如何有效提取信息的主题并进行快速分类日益受到研究者的关注。短文本分类目前面临的主要困难在于文本自身长度太短,导致提取的特征过于稀少、上下文信息量偏少等问题。由于通过外部语料和知识库对短文本进行特征扩展时,不仅扩展所需的时间过长,还容易引入噪声数据。此外,传统的向量空间模型和机器学习分类算法直接应用到短文本分类上效果不甚理想。针对短文本特征过于稀疏,使用外部语料进行特征扩展时容易引入噪声数据的问题,采用了一种基于主题模型的特征扩展方式,该方式利用WTTM模型来获取主题–词分布,并通过该分布来完成对短文本内容上的主题特征扩展。针对扩展特征与原特征的差异,在计算被扩展特征的特征权重时,融入扩展特征与原特征的语义相似性,使两者特征之间的语义联系更加紧密,从而使文本分类的结果更加准确。综上,提出一种词向量...
【文章来源】:重庆邮电大学重庆市
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
短文本分类验证原型系统文本处理界面
重庆邮电大学硕士学位论文第5章短文本分类验证原型系统43图5.6短文本分类验证原型系统文本扩展界面图5.7所展示的是短文本分类验证原型系统文本分类界面,文本分类模块是短文本分类验证原型系统中的核心功能,在该模块的界面中,主要有加载分类模型、开始分类、分类结果三个操作,加载分类模型主要是调用已经训练好的分类模型,然后在点击开始分类后,便开始对需要分类的文本在后台利用本文的文本表示方法进行文本表示,接着投入已经训练好的分类器中,使其可以进行文本分类的后续操作,最后将分类结果显示在另一个文件夹中。分类结果是为了给用户直接打开分类结果所处的文件夹,并提供查看。图5.7短文本分类验证原型系统文本分类界面
重庆邮电大学硕士学位论文第5章短文本分类验证原型系统43图5.6短文本分类验证原型系统文本扩展界面图5.7所展示的是短文本分类验证原型系统文本分类界面,文本分类模块是短文本分类验证原型系统中的核心功能,在该模块的界面中,主要有加载分类模型、开始分类、分类结果三个操作,加载分类模型主要是调用已经训练好的分类模型,然后在点击开始分类后,便开始对需要分类的文本在后台利用本文的文本表示方法进行文本表示,接着投入已经训练好的分类器中,使其可以进行文本分类的后续操作,最后将分类结果显示在另一个文件夹中。分类结果是为了给用户直接打开分类结果所处的文件夹,并提供查看。图5.7短文本分类验证原型系统文本分类界面
【参考文献】:
期刊论文
[1]基于类别特征扩展的短文本分类方法研究[J]. 邵云飞,刘东苏. 数据分析与知识发现. 2019(09)
[2]全卷积神经网络的字符级文本分类方法[J]. 张曼,夏战国,刘兵,周勇. 计算机工程与应用. 2020(05)
[3]融合词向量及BTM模型的问题分类方法[J]. 黄贤英,谢晋,龙姝言. 计算机工程与设计. 2019(02)
[4]面向LDA主题模型的文本分类研究进展与趋势[J]. 赵乐,张兴旺. 计算机系统应用. 2018(08)
[5]基于k最近邻和改进TF-IDF的文本分类框架[J]. 龚静,黄欣阳. 计算机工程与设计. 2018(05)
[6]基于神经网络的文本表示模型新方法[J]. 曾谁飞,张笑燕,杜晓峰,陆天波. 通信学报. 2017(04)
[7]维基百科在多种类型数字文本资源自动分类中的应用[J]. 李湘东,刘康,高凡. 情报科学. 2017(02)
[8]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[9]基于知网语义特征扩展的题名信息分类[J]. 李湘东,刘康,丁丛,廖香鹏. 图书馆杂志. 2017(02)
[10]基于朴素贝叶斯的文本分类研究综述[J]. 贺鸣,孙建军,成颖. 情报科学. 2016(07)
硕士论文
[1]基于维基百科的文本样本扩展方法及其应用研究[D]. 刘懿霆.上海大学 2018
本文编号:3143638
【文章来源】:重庆邮电大学重庆市
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
短文本分类验证原型系统文本处理界面
重庆邮电大学硕士学位论文第5章短文本分类验证原型系统43图5.6短文本分类验证原型系统文本扩展界面图5.7所展示的是短文本分类验证原型系统文本分类界面,文本分类模块是短文本分类验证原型系统中的核心功能,在该模块的界面中,主要有加载分类模型、开始分类、分类结果三个操作,加载分类模型主要是调用已经训练好的分类模型,然后在点击开始分类后,便开始对需要分类的文本在后台利用本文的文本表示方法进行文本表示,接着投入已经训练好的分类器中,使其可以进行文本分类的后续操作,最后将分类结果显示在另一个文件夹中。分类结果是为了给用户直接打开分类结果所处的文件夹,并提供查看。图5.7短文本分类验证原型系统文本分类界面
重庆邮电大学硕士学位论文第5章短文本分类验证原型系统43图5.6短文本分类验证原型系统文本扩展界面图5.7所展示的是短文本分类验证原型系统文本分类界面,文本分类模块是短文本分类验证原型系统中的核心功能,在该模块的界面中,主要有加载分类模型、开始分类、分类结果三个操作,加载分类模型主要是调用已经训练好的分类模型,然后在点击开始分类后,便开始对需要分类的文本在后台利用本文的文本表示方法进行文本表示,接着投入已经训练好的分类器中,使其可以进行文本分类的后续操作,最后将分类结果显示在另一个文件夹中。分类结果是为了给用户直接打开分类结果所处的文件夹,并提供查看。图5.7短文本分类验证原型系统文本分类界面
【参考文献】:
期刊论文
[1]基于类别特征扩展的短文本分类方法研究[J]. 邵云飞,刘东苏. 数据分析与知识发现. 2019(09)
[2]全卷积神经网络的字符级文本分类方法[J]. 张曼,夏战国,刘兵,周勇. 计算机工程与应用. 2020(05)
[3]融合词向量及BTM模型的问题分类方法[J]. 黄贤英,谢晋,龙姝言. 计算机工程与设计. 2019(02)
[4]面向LDA主题模型的文本分类研究进展与趋势[J]. 赵乐,张兴旺. 计算机系统应用. 2018(08)
[5]基于k最近邻和改进TF-IDF的文本分类框架[J]. 龚静,黄欣阳. 计算机工程与设计. 2018(05)
[6]基于神经网络的文本表示模型新方法[J]. 曾谁飞,张笑燕,杜晓峰,陆天波. 通信学报. 2017(04)
[7]维基百科在多种类型数字文本资源自动分类中的应用[J]. 李湘东,刘康,高凡. 情报科学. 2017(02)
[8]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文. 现代图书情报技术. 2016(12)
[9]基于知网语义特征扩展的题名信息分类[J]. 李湘东,刘康,丁丛,廖香鹏. 图书馆杂志. 2017(02)
[10]基于朴素贝叶斯的文本分类研究综述[J]. 贺鸣,孙建军,成颖. 情报科学. 2016(07)
硕士论文
[1]基于维基百科的文本样本扩展方法及其应用研究[D]. 刘懿霆.上海大学 2018
本文编号:3143638
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3143638.html
最近更新
教材专著