基于神经网络嵌入模型的中文文本分类方法研究

发布时间:2022-01-07 02:09
  文本分类是目前自然语言处理领域最基础的任务之一,在信息检索、推荐系统等领域都有着广泛的研究和应用。传统的文本分类方法通过人工特征工程等方法对文本进行表示,再选择合适的分类器对文本表示进行分类。随着机器学习和深度学习的发展,一些基于神经网络的嵌入模型也在文本分类领域取得了出色的应用效果,尤其在英文文本分类领域。相较于英文文本分类,中文文本分类近几年才得到了广泛的关注,然而,由于其应用场景的差异和中文单词没有天然分隔符的特点,给中文文本分类带来了巨大挑战。因而进一步研究适用于不同场景的中文文本分类的算法具有重要意义和应用价值。基于此,本文开展了基于神经网络嵌入模型的中文文本分类方法研究,主要研究工作如下:(1)实际应用领域如税收领域开具的增值税发票数据具有总体数据量大、每条文本信息量少、特征项模糊等特点,这种海量极短中文文本数据的特点导致传统表示学习算法难以处理向量稀疏和维度灾难的问题。因此,本文提出一种基于词句嵌入模型的中文极短文本分类方法。首先,借助海量语料库使用基于神经网络的词句嵌入模型对文本进行有效表示,进而结合分类器对文本进行分类。最后,在税收编码分类任务的1600万真实数据集上... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

基于神经网络嵌入模型的中文文本分类方法研究


020年2月21日百度新闻的新闻分类[27]

邮箱,智能,文本分类,短文


第二章文本分类相关研究综述9图2.2网易邮箱的智能分类设置Fig2.2IntelligentclassificationSettingsforNetEasemailbox.2.1.2文本分类难点文本分类作为一个基础任务已经研究了很多年,它和自然语言处理领域中的很多技术都密切相关,如语言理解,语义相似度度量等等,这些技术的难点同时也是文本分类问题的难点。人类语言形式结构多样,在不同的场景中有不一样的运用,如何让机器理解人类的语言一直都有着许多的困难,这些困难都会影响到文本分类的效果。(1)短文本问题短文本分类问题是文本分类领域中一类常见问题。短文本一般指的是不超过160个字符的文本,常见的形式有微博、新闻标题、观点评论等。短文本特征词一般较少,用传统的向量空间模型表示时会造成特征稀疏的问题;短文本中还会有不规则特征词和未登录词;短文本如微博、评论等还有实时性、海量性的特点,这些都给文本分类带来了困难。例如下面两条新闻标题分类:“伊达传说EDDAOnline”应该属于游戏类,从字面意思难以判断,也容易分

模型图,模型,词句,短文


合肥工业大学硕士学位论文223.2基于词句嵌入模型的中文极短文本分类框架本节将介绍基于词句嵌入模型的海量中文极短文本分类框架,所用到的符号及相应意义如表3.1所示。3.2.1词嵌入模型图3.1CBOW模型Fig3.1CBOWmodel图3.2Skip-gram模型Fig3.2Skip-grammodel


本文编号:3573596

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3573596.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e160c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com