基于新闻文本的关键词提取
发布时间:2021-03-08 07:22
随着信息化时代的到来,文本分析成为当今的热门话题之一。文本分析主要是从海量文本数据中提取有意义的信息作为文本特征,通过分析文本数据的特征,实现对文本数据的应用与研究。自然语言处理是实现智能化文本分析的重要途径。其中,关键词提取是自然语言处理的一项研究热点,也是本文我所研究的重点。中文文本分析主要是通过对文本的表示和文本特征的提取,来实现文本分类、聚类、信息检索等工作。把从文本中提取处理的重要特征量化是文本分析的基础工作。关键词即是文本数据需要处理的重要特征,是分析文本数据的基础单元。自动提取关键词是自然语言处理任务的重点研究对象,对于文本分析有着重要的研究意义。本文以汽车新闻文本作为研究数据,通过TextRank图模型和Word2Vec相结合的方法,提取汽车新闻文本的关键词。利用中文分词工具——结巴分词对中文语料分词。通过融合单个文档的内部结构信息和整个文档集合的词向量关系提取文本中的词汇;通过Word2Vec模型将文档集合中所有词汇表示成稠密向量的形式,以向量的相似度来表示词汇之间的相似度。在Word2Vec模型的基础上,对TextRank算法做进一步改进。把候选关键词作为词汇节点,...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
向量空间模型示意图
如图2.?2所示,神经网络语言模型主要包括三层:??首先是Embedding层。以一个句子“我喜欢吃长沙臭豆腐”为例,句子拆开是??“我”、“喜欢”、“吃”、“长沙”四个词,来预测下一个词是什么。每个词给一个编??,“我”、“喜欢”、“吃”、“长沙编号分别为1,2,?3,4。矩阵C为的投影矩阵,??中V是词典的维度大小,D是Embedding向量的维度。那么,“我”、“喜欢”的??ne-hot向量表不为:??rn?f〇^??0?1??.?9?.??这里,one-hot向量作为模型的输入,通过矩阵C,映射为分布式的词向量。??第二部分是hidden?layer?(隐层)。隐层将上一层的输出作为输入,进行全连??,然后通过激活函数tanh来处理这些词向量。??第三部分是SoftMax层。隐层出来之后,接一个SoftMax函数,对词典中的词??输入context下的条件概率做出预估。预测一下,在这V维词典中,每个单词出??
??型同时解决了两个问题:通过Embedding层得到向量空间模达;通过一个前向反馈神经网络实现统计语言模型的计算。直接从语言模型出发,将模型最优化的过程转换。通过词向量的表示和平滑处理,我们就可以对文本序列概词袋模型带来的数据稀疏、语义鸿沟和维度灾难的问题。??等人的工作只考虑对语言模型的建模,词向量只是学习语言此他们并没有指出哪一套向量作为词向量效果更好。通过神后,更多人投入到词向量模型的研宄中去。2013年,谷歌米型进行改进,设计了?CB0W模型和Skip-gram模型。而ous?Bagof-Words)和?Skip-gram?语言模型的工具正是?wordWord2Vec?基础知识??图?2.4?分别是?CBOW(Continuous?Bag-of-Words?Model)和?Skus?Skip-gram?Model)。??
本文编号:3070655
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
向量空间模型示意图
如图2.?2所示,神经网络语言模型主要包括三层:??首先是Embedding层。以一个句子“我喜欢吃长沙臭豆腐”为例,句子拆开是??“我”、“喜欢”、“吃”、“长沙”四个词,来预测下一个词是什么。每个词给一个编??,“我”、“喜欢”、“吃”、“长沙编号分别为1,2,?3,4。矩阵C为的投影矩阵,??中V是词典的维度大小,D是Embedding向量的维度。那么,“我”、“喜欢”的??ne-hot向量表不为:??rn?f〇^??0?1??.?9?.??这里,one-hot向量作为模型的输入,通过矩阵C,映射为分布式的词向量。??第二部分是hidden?layer?(隐层)。隐层将上一层的输出作为输入,进行全连??,然后通过激活函数tanh来处理这些词向量。??第三部分是SoftMax层。隐层出来之后,接一个SoftMax函数,对词典中的词??输入context下的条件概率做出预估。预测一下,在这V维词典中,每个单词出??
??型同时解决了两个问题:通过Embedding层得到向量空间模达;通过一个前向反馈神经网络实现统计语言模型的计算。直接从语言模型出发,将模型最优化的过程转换。通过词向量的表示和平滑处理,我们就可以对文本序列概词袋模型带来的数据稀疏、语义鸿沟和维度灾难的问题。??等人的工作只考虑对语言模型的建模,词向量只是学习语言此他们并没有指出哪一套向量作为词向量效果更好。通过神后,更多人投入到词向量模型的研宄中去。2013年,谷歌米型进行改进,设计了?CB0W模型和Skip-gram模型。而ous?Bagof-Words)和?Skip-gram?语言模型的工具正是?wordWord2Vec?基础知识??图?2.4?分别是?CBOW(Continuous?Bag-of-Words?Model)和?Skus?Skip-gram?Model)。??
本文编号:3070655
本文链接:https://www.wllwen.com/tushudanganlunwen/3070655.html