基于神经网络的中文论文数据分析技术研究
发布时间:2021-10-05 05:22
近年来,互联网得到了十足的发展,网络通讯传输技术也迅速发展,人们创造传输信息的能力大大增强,网络上充斥着越来越海量的各种虚拟信息和资源。传统的文本分析技术在面对复杂海量的文本时越来越乏力。近年来,深度学习技术的发展使得人们对于数据的处理利用能力大大提升。本文在文本关键语句提取,分类,相似度计算几个方面进行了研究和探索,通过改进并结合文本摘要提取技术和深度学习技术提出了一种有效的方案来进行中文文本的分析处理。在文本关键语句提取方面,针对后续工作的需要和TF-IDF算法的缺陷,对其进行了适当的改进,添加了DAC系数来衡量词汇在类间的分布情况,使最终的权值能更好的衡量词汇的重要程度,从而得到质量更高文本摘要。借助word2vec技术提出了一种基于语义的相似度计算方案。训练skip-gram网络来获得词的向量映射表,将词汇向量化,之后结合词汇的权值来构建文本向量,再利用余弦距离公式来计算文本间的相似度。使用前文中通过文本摘要提取技术获得的文本关键语句和词向量映射表构建网络的输入数据形式,结合卷积神经网络完成长文本分类的任务并对本文所用的卷积神经网络进行了详细的分析与说明。为了验证方法的可行性和...
【文章来源】:北方工业大学北京市
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
NNLM模型
第三章基于语义的中文文本相似度计算方法203.1.2word2vec技术的两种模型Word2Vec技术可以将文本中的词汇使用定长的向量表示出来,并且使得向量之间的关系可以在一定程度上反映出其对应的词汇之间的关系。长久以来人们都在寻找一个合理的方法来将词表示为向量形式,一旦有一种合适的词向量构造方法可以胜任这个工作,就会为后续的文本处理工作提供极大的便利。针对上述问题,使用one-hot编码词是一种最直接的方案,向量的维度就是词典包含的词数,这个词在词典中的位置就是向量中1的位置。但是这种过于直接的方式很容易就会导致维度的爆炸,过于稀疏的数据也十分的浪费存储空间。Word2Vec的思路就是让模型根据训练语料自动挖掘词语之间的关联并构造出合适的向量形式。Word2Vec的实现两种方式:skip-gram和CBOW。CBOW模型也叫连续词袋模型,但是它却不同于传统的词袋模型,它是通过训练神经网路来获取词向量的。简单来说就是让通过一个词wt的前后k个词来预测该词,比如当k=2时,输入就是wt-2,wt-1,wt+1,wt+2,训练目标是让网络正确的输出wt。CBOW模型的网络结构图下图所示:图3-2CBOW模型由上下文预测w(t)的计算公式为:wwwwwwwpcontextwpktktttktkttt),,...,,,...,,|()|(1111(3-5)CBOW模型与NNLM基础理论相差不大,主要区别一方面是CBOW模型省去了
第三章基于语义的中文文本相似度计算方法21中间计算时较为复杂的隐层,在加速了训练的同时其性能也没有受到明显影响,另一方面CBOW在进行词的预测时使用的上下文的词。CBOW模型的目标是根据某个词的周围词来对这个词进行预测。例如,对于句子“中国人民实在太团结了”,预测实在这个词时,可以使用中国、人民、太、团结这四个词,它们构成了实在的上下文。按照这个方法就可以得到一系列的训练样本。之后通过不断的迭代计算,调整参数,当整个神经网络趋于稳定的时候就是完成了神经网络的训练任务。对于已经训练好的网络,隐藏层的权重矩阵就是所需的词向量映射表。Skip-gram模型和CBOW模型相反,是通过一个中心词wt,来预测该中心词的前后k个词,比如当k=1时,输入就是wt,训练目标是让网络可以正确输出wt-1,wt+1。在一定范围内,k越大,训练时使用的信息就越丰富,相应的训练出的词向量质量也越高,但是相对的计算复杂度也会大大增加,时间开销增大。Skip-gram模型的网络结构图如下所示。图3-3Skip-gram模型Skip-gram模型的训练时间要比CBOW模型长,因为CBOW模型在训练时是以一个中心词为基准来进行反向传播来调整其周围的词,而Skip-gram模型在训练时是用中心词前后的多个词汇为基准来共同调整该中心词。也正因为如此,在性能方面一般情况下也是后者的表现好一些。3.1.3word2vec技术的优势和特点通过word2vec技术的得到的词向量相较于传统的模型,一方面不会存在维度爆炸的问题,可以根据需求调整词向量的维度,另一方面通过大量语料的训练
【参考文献】:
期刊论文
[1]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[2]面向实时数据流的差分隐私直方图发布技术[J]. 杨庚,夏春婷,白云璐. 南京邮电大学学报(自然科学版). 2018(02)
[3]面向时间序列的微博话题演化模型研究[J]. 王振飞,刘凯莉,郑志蕴,王飞. 计算机科学. 2017(08)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]基于多层类别主题图模型的教育文本分类方法[J]. 李全. 计算机与现代化. 2016(07)
[6]基于word2vec和SVMperf的中文评论情感分类研究[J]. 张冬雯,杨鹏飞,许云峰. 计算机科学. 2016(S1)
[7]采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 姜霖,王东波. 现代图书情报技术. 2016(02)
[8]改进属性独立的加权朴素贝叶斯分类测试算法[J]. 李雪莲. 电子质量. 2015(08)
[9]一种基于类别描述的TF-IDF特征选择方法的改进[J]. 徐冬冬,吴韶波. 现代图书情报技术. 2015(03)
[10]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
硕士论文
[1]问答系统中答案选择算法研究[D]. 朱林风.北京邮电大学 2019
[2]基于深度学习的自然场景门牌多数字识别[D]. 钟菊萍.广东技术师范大学 2019
[3]基于视觉的道路障碍物检测算法及其增强现实应用[D]. 权鸿斌.福州大学 2018
[4]一个面向工作的智能化沟通平台的研究和开发[D]. 赵子鑫.浙江大学 2018
[5]基于卷积神经网络的文本分类[D]. 刁夏凝.哈尔滨工程大学 2017
[6]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
[7]基于支持向量机的海量文本分类并行化技术研究[D]. 任倚天.北京理工大学 2016
[8]基于编辑距离的字符串模式匹配算法研究[D]. 王春雨.燕山大学 2015
[9]卷积神经网络及其应用[D]. 李飞腾.大连理工大学 2014
[10]朴素贝叶斯分类模型的改进研究[D]. 朱晓丹.厦门大学 2014
本文编号:3419081
【文章来源】:北方工业大学北京市
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
NNLM模型
第三章基于语义的中文文本相似度计算方法203.1.2word2vec技术的两种模型Word2Vec技术可以将文本中的词汇使用定长的向量表示出来,并且使得向量之间的关系可以在一定程度上反映出其对应的词汇之间的关系。长久以来人们都在寻找一个合理的方法来将词表示为向量形式,一旦有一种合适的词向量构造方法可以胜任这个工作,就会为后续的文本处理工作提供极大的便利。针对上述问题,使用one-hot编码词是一种最直接的方案,向量的维度就是词典包含的词数,这个词在词典中的位置就是向量中1的位置。但是这种过于直接的方式很容易就会导致维度的爆炸,过于稀疏的数据也十分的浪费存储空间。Word2Vec的思路就是让模型根据训练语料自动挖掘词语之间的关联并构造出合适的向量形式。Word2Vec的实现两种方式:skip-gram和CBOW。CBOW模型也叫连续词袋模型,但是它却不同于传统的词袋模型,它是通过训练神经网路来获取词向量的。简单来说就是让通过一个词wt的前后k个词来预测该词,比如当k=2时,输入就是wt-2,wt-1,wt+1,wt+2,训练目标是让网络正确的输出wt。CBOW模型的网络结构图下图所示:图3-2CBOW模型由上下文预测w(t)的计算公式为:wwwwwwwpcontextwpktktttktkttt),,...,,,...,,|()|(1111(3-5)CBOW模型与NNLM基础理论相差不大,主要区别一方面是CBOW模型省去了
第三章基于语义的中文文本相似度计算方法21中间计算时较为复杂的隐层,在加速了训练的同时其性能也没有受到明显影响,另一方面CBOW在进行词的预测时使用的上下文的词。CBOW模型的目标是根据某个词的周围词来对这个词进行预测。例如,对于句子“中国人民实在太团结了”,预测实在这个词时,可以使用中国、人民、太、团结这四个词,它们构成了实在的上下文。按照这个方法就可以得到一系列的训练样本。之后通过不断的迭代计算,调整参数,当整个神经网络趋于稳定的时候就是完成了神经网络的训练任务。对于已经训练好的网络,隐藏层的权重矩阵就是所需的词向量映射表。Skip-gram模型和CBOW模型相反,是通过一个中心词wt,来预测该中心词的前后k个词,比如当k=1时,输入就是wt,训练目标是让网络可以正确输出wt-1,wt+1。在一定范围内,k越大,训练时使用的信息就越丰富,相应的训练出的词向量质量也越高,但是相对的计算复杂度也会大大增加,时间开销增大。Skip-gram模型的网络结构图如下所示。图3-3Skip-gram模型Skip-gram模型的训练时间要比CBOW模型长,因为CBOW模型在训练时是以一个中心词为基准来进行反向传播来调整其周围的词,而Skip-gram模型在训练时是用中心词前后的多个词汇为基准来共同调整该中心词。也正因为如此,在性能方面一般情况下也是后者的表现好一些。3.1.3word2vec技术的优势和特点通过word2vec技术的得到的词向量相较于传统的模型,一方面不会存在维度爆炸的问题,可以根据需求调整词向量的维度,另一方面通过大量语料的训练
【参考文献】:
期刊论文
[1]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[2]面向实时数据流的差分隐私直方图发布技术[J]. 杨庚,夏春婷,白云璐. 南京邮电大学学报(自然科学版). 2018(02)
[3]面向时间序列的微博话题演化模型研究[J]. 王振飞,刘凯莉,郑志蕴,王飞. 计算机科学. 2017(08)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]基于多层类别主题图模型的教育文本分类方法[J]. 李全. 计算机与现代化. 2016(07)
[6]基于word2vec和SVMperf的中文评论情感分类研究[J]. 张冬雯,杨鹏飞,许云峰. 计算机科学. 2016(S1)
[7]采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 姜霖,王东波. 现代图书情报技术. 2016(02)
[8]改进属性独立的加权朴素贝叶斯分类测试算法[J]. 李雪莲. 电子质量. 2015(08)
[9]一种基于类别描述的TF-IDF特征选择方法的改进[J]. 徐冬冬,吴韶波. 现代图书情报技术. 2015(03)
[10]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
硕士论文
[1]问答系统中答案选择算法研究[D]. 朱林风.北京邮电大学 2019
[2]基于深度学习的自然场景门牌多数字识别[D]. 钟菊萍.广东技术师范大学 2019
[3]基于视觉的道路障碍物检测算法及其增强现实应用[D]. 权鸿斌.福州大学 2018
[4]一个面向工作的智能化沟通平台的研究和开发[D]. 赵子鑫.浙江大学 2018
[5]基于卷积神经网络的文本分类[D]. 刁夏凝.哈尔滨工程大学 2017
[6]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
[7]基于支持向量机的海量文本分类并行化技术研究[D]. 任倚天.北京理工大学 2016
[8]基于编辑距离的字符串模式匹配算法研究[D]. 王春雨.燕山大学 2015
[9]卷积神经网络及其应用[D]. 李飞腾.大连理工大学 2014
[10]朴素贝叶斯分类模型的改进研究[D]. 朱晓丹.厦门大学 2014
本文编号:3419081
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3419081.html
最近更新
教材专著