中文短文本分类方法的设计与实现
发布时间:2021-06-23 06:22
近年来随着互联网的快速发展,网络信息呈现出飞速增长的趋势,其主要表现形式为短文本。如何从中找到有价值的信息并对其进行准确分类已成为学者们关注的焦点。短文本具有字数少,维度高等特性,无法照搬长文本分类方法。针对这些问题本文对短文本分类的相关技术展开研究。首先设计了短文本特征扩展算法STFE,使短文本的有效特征增多再进行分类其准确性有一定提升。然后提出CAS-CNN网络结构,在词向量层引入注意力机制,从不同角度丰富词向量的特征,从而提升分类效果。具体研究工作有以下三点:(1)提出了短文本频繁特征词集挖掘算法SP-Apriori,解决了单机模式下Apriori算法挖掘频繁特征词集效率低的问题。该算法结合Spark的优点,降低SP-Apriori算法执行的时间并提高了挖掘频繁特征词集的效率。(2)提出了采用频繁特征词集的短文本特征扩展算法STFE,缓解了短文本特征不足的问题。首先采用SP-Apriori算法挖掘语料库的频繁特征词集,筛选有效的关联规则,接下来把部分关联特征词扩充到短文本中,使短文本的特征词数量增多,为接下来分类任务增加了特征信息。(3)设计了新的网络结构,提出引入注意力的卷积网...
【文章来源】:北方工业大学北京市
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2-1传统的文本分类流程图??
布式表示法??虑了上述单词表达方式的不足,词语的分布式表达为短文本特新的思路。词语的分布式表示称作特征词的词向量。??布式表示方法最早由Hinton等人[27]提出的,其核心是经过训每个词向量能被看作是该空间上的坐标。根据每个坐标在空间算词语或句子在语义上的相似度情况。??词的分布式表达方法中应用较广泛的是神经网络词语分布式?模型??模型起初由Bengio等人[28]首次公开提出。通过对计算目标词间向量,词向量维度可依据语料库大小设定合适的值,其具体输出层p(Wi:Wl,W2.?W.-l)
?Wj-m-2?j?W5-I??图2-2?NNLM模型示意图??NNLM模型利用前馈神经网络建模目标语言。NNLM模型[29]的核心思想总??结为:??1.
【参考文献】:
期刊论文
[1]基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J]. 徐保鑫,怀丽波,崔荣一. 延边大学学报(自然科学版). 2017(01)
[2]Spark平台下的短文本特征扩展与分类研究[J]. 王雯,赵衎衎,李翠平,陈红,孙辉. 计算机科学与探索. 2017(05)
[3]改进的频繁词集短文本特征扩展方法[J]. 马慧芳,曾宪桃,李晓红,朱志强. 计算机工程. 2016(10)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[5]MapReduce环境下支持大规模文本检索的概念索引[J]. 张生,胡加靖. 计算机工程. 2015(07)
[6]一种基于频繁词集的短文本特征扩展方法[J]. 袁满,欧阳元新,熊璋,罗建辉. 东南大学学报(自然科学版). 2014(02)
[7]一种基于压缩矩阵的Apriori算法改进研究[J]. 罗丹,李陶深. 计算机科学. 2013(12)
[8]基于维基百科的中文短文本分类研究[J]. 范云杰,刘怀亮. 现代图书情报技术. 2012(03)
[9]一种基于WordNet的短文本语义相似性算法[J]. 翟延冬,王康平,张东娜,黄岚,周春光. 电子学报. 2012(03)
[10]利用上下位关系的中文短文本分类[J]. 王盛,樊兴华,陈现麟. 计算机应用. 2010(03)
硕士论文
[1]基于卷积神经网络的车辆属性识别[D]. 徐博.北京理工大学 2016
本文编号:3244418
【文章来源】:北方工业大学北京市
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2-1传统的文本分类流程图??
布式表示法??虑了上述单词表达方式的不足,词语的分布式表达为短文本特新的思路。词语的分布式表示称作特征词的词向量。??布式表示方法最早由Hinton等人[27]提出的,其核心是经过训每个词向量能被看作是该空间上的坐标。根据每个坐标在空间算词语或句子在语义上的相似度情况。??词的分布式表达方法中应用较广泛的是神经网络词语分布式?模型??模型起初由Bengio等人[28]首次公开提出。通过对计算目标词间向量,词向量维度可依据语料库大小设定合适的值,其具体输出层p(Wi:Wl,W2.?W.-l)
?Wj-m-2?j?W5-I??图2-2?NNLM模型示意图??NNLM模型利用前馈神经网络建模目标语言。NNLM模型[29]的核心思想总??结为:??1.
【参考文献】:
期刊论文
[1]基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J]. 徐保鑫,怀丽波,崔荣一. 延边大学学报(自然科学版). 2017(01)
[2]Spark平台下的短文本特征扩展与分类研究[J]. 王雯,赵衎衎,李翠平,陈红,孙辉. 计算机科学与探索. 2017(05)
[3]改进的频繁词集短文本特征扩展方法[J]. 马慧芳,曾宪桃,李晓红,朱志强. 计算机工程. 2016(10)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[5]MapReduce环境下支持大规模文本检索的概念索引[J]. 张生,胡加靖. 计算机工程. 2015(07)
[6]一种基于频繁词集的短文本特征扩展方法[J]. 袁满,欧阳元新,熊璋,罗建辉. 东南大学学报(自然科学版). 2014(02)
[7]一种基于压缩矩阵的Apriori算法改进研究[J]. 罗丹,李陶深. 计算机科学. 2013(12)
[8]基于维基百科的中文短文本分类研究[J]. 范云杰,刘怀亮. 现代图书情报技术. 2012(03)
[9]一种基于WordNet的短文本语义相似性算法[J]. 翟延冬,王康平,张东娜,黄岚,周春光. 电子学报. 2012(03)
[10]利用上下位关系的中文短文本分类[J]. 王盛,樊兴华,陈现麟. 计算机应用. 2010(03)
硕士论文
[1]基于卷积神经网络的车辆属性识别[D]. 徐博.北京理工大学 2016
本文编号:3244418
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3244418.html
最近更新
教材专著