基于自然语言处理的文本分类研究与应用

发布时间:2022-01-16 12:10
  目前NLP(Natural Language Processing,自然语言处理)已成为机器学习的研究热点之一。文本分类是NLP处理技术的重要分支。本文采用期刊论文作为实验数据,研究了中文文本分类问题,并提出了两种分类模型。一种是基于权重预处理的中文文本分类算法PRE-TF-IDF(Pre-processing Term Frequency Inverse Document Frequency,文本预处理的词频逆文本频)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置。PRE-TF-IDF算法通过在TF-IDF(Term Frequency Inverse Document Frequency,词频逆文本频)算法基础上增加权重预处理和词密度权重两个环节,提高了文本分类的准确性。另一种是基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier,卷积神经网络与支持向量机分类器结合模型)。在传统卷积神经网络模型的基础上,增加了注意力机制,... 

【文章来源】:南京邮电大学江苏省

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于自然语言处理的文本分类研究与应用


自然语言处理流程图

有向图


南京邮电大学专业学位硕士研究生学位论文第二章自然语言处理关键技术概述9件概率的链式法则。实验过程中,经常需要在已知h的情况下,来计算出。想要确定这两者之间的关系,可以使用贝叶斯公式进行计算:==14h式(2.4)中,=1=,称之为事件的先验概率,1…为事件的完备事件组,且>0。(2)结构化概率模型自然语言处理的算法经常会涉及到多个随机变量上的概率分布,这些概率分布所涉及的相互作用往往是介于极少的变量之间。如果使用某一个函数来描述整个联合概率的分布,最终得到的结果将是非常低效的。通常,我们将概率分布分解成多个因子的乘积形式,而不用某一单一函数进行表示[36]。假设三个随机变量a、b和c,其中事件a和事件c在给定b的情况下,是条件独立的。但事件a会影响事件b的取值,事件b会影响事件c的取值。将这三个变量的概率密度现在表示为两个变量概率分布的链式形式:=h通过这样的运算可以很大程度上减少描述一个随机分量的参数数量。由于每个因子使用的参数数目与其变量数目之间呈指数倍。所以,如果能够找到一种方法,使用更少变量的分解方法来表示因子的分布,就可以使联合分布的标识成本大大降低。当前比较主流的解决方法是通过一些边相互连接顶点的图形来解决,学术界将这种分解方法称之为结构化模型[37]。结构化概率模型分为有向和无向两种,每个节点对应着一个随机变量,每条边代表这两个随机变量之间的概率分布是直接作用的。下图为一个有向图示例:图2.2有向图

无向图,无向图


南京邮电大学专业学位硕士研究生学位论文第二章自然语言处理关键技术概述10有向图模型又称贝叶斯网络,使用有向箭头来连接两个节点,箭头方向代表条件概率分布,适用于信息流动方向较为明确的情况。图2.2中,A指向B和C,代表着A时间直接影响B事件和C时间的概率。图2.2所对应的概率分布为:ABCDE=ABACABDBPECh图模型的概率分布的通用公式为:=hh其中1…代表有向图中的结点。h表示所有指向节点的父节点。无向图模型又称为马尔科夫随机场,使用无箭头线段来连接两个节点,且不代表条件概率。下图为一个无向图示例:图2.3无向图在无向图中,任何满足两两之间有边连接的节点,所形成的图形称之为团,简记为,用表示团所有变量的联合概率分布。为完成概率归一化,需要引入归一化常数,常数被定义为函数乘积的求和即:Px=1h在图2.3中,A与B和C直接相互影响,但A和E只通过C间接相互影响,所对应的联合概率公式为:ABCDE=11ABCBDCEh(3)N-gram语言模型在自然语言处理中,常常根据不同模型的设计特征,将词语、字符或字节作为标记的实体。N-gram语言模型[38]是一种基于概率的判别模型,“N-gram”中的N代表包含N个词语组成的集合。将这N个词语组成的文本序列作为输入,经过N-gram语言模型的处理,将输出这N个词语出现的联合概率。N个词语之间需要按先后顺序进行输入,但词与词之间允许出

【参考文献】:
期刊论文
[1]中文文本分类方法综述[J]. 于游,付钰,吴晓平.  网络与信息安全学报. 2019(05)
[2]自然语言处理发展及应用综述[J]. 赵京胜,宋梦雪,高祥.  信息技术与信息化. 2019(07)
[3]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚.  小型微型计算机系统. 2019(05)
[4]基于语义分析的改进TF-IDF算法[J]. 代钰琴,徐鲁强.  西南科技大学学报. 2019(01)
[5]自然语言处理技术发展与未来[J]. 方明之.  科技传播. 2019(06)
[6]自然语言处理发展与应用概述[J]. 高源.  中国新通信. 2019(02)
[7]基于深度学习的文本分类系统关键技术研究与模型验证[J]. 汪少敏,杨迪,任华.  电信科学. 2018(12)
[8]基于KNN算法的可变权值室内指纹定位算法[J]. 戴志诚,李小年,陈增照,何秀玲.  计算机工程. 2019(06)
[9]基于Word2vec的论文和专利主题关联演化分析方法研究[J]. 徐红姣,曾文,张运良.  情报杂志. 2018(12)
[10]基于卷积神经网络的图像识别研究[J]. 谢慧芳,刘艺航,王梓,王迎港.  无线互联科技. 2018(14)

硕士论文
[1]基于混合神经网络的中文短文本分类方法研究[D]. 王磊.浙江理工大学 2019



本文编号:3592632

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3592632.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1fef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com