基于深度学习的科技资源多标签文本分类方法研究
发布时间:2021-04-01 10:04
科技服务业是现代服务业的重要组成部分,其中,科技资源作为科技服务业发展的基石,其数量、种类、分布量均达到了空前的壮大和发展。但科技资源分布分散孤立、多样复杂,导致资源集成度和有效利用率低,难以切实发挥其对科技与实体经济的支撑作用。为此“集成”并“科学分析利用”科技资源成为我国科技服务的关键核心任务和必然趋势。其中,“分类”是科技资源“集成”与“科学分析利用”的前提和基础。而在科技资源中,大部分资源都是以文本的形式存在,且均具有同属于多个类别的特点,所以面向文本科技资源多标签分类方法的研究成为科技资源分类方法研究的重要内容和热点趋势。为此,本文围绕国家重点研发计划课题“分布式资源巨系统及资源协同理论”(课题编号:2017YFB1400301)中提出的“集资源、融产业、创模式”以及打造科技服务业资源体系与资源分享模式目标,面向课题针对分散孤立、复杂多样科技资源开展跨平台资源汇聚、融合,以支撑跨行业分布式科技资源搜索、分析、匹配、评价和优化等任务,以课题任务要求的万方科技服务平台和宁波市科技信息研究院公共服务平台中的非结构化科技文本资源为数据支撑,重点研究支持科技文本资源汇聚、融合的多标签文...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
原始中文科技论文数据(部分)
第三章科技文本的预处理15以针对含有摘要的科技文本如:论文、专利等,本文直接基于摘要内容进行分类。对于不含摘要的科技文本如:新闻等,根据一篇文章的第一段和最后一段通常对整篇文本都有着概述作用,同时每一段的第一句和最后一句通常对该段有着概述作用,本文将此类文本的第一段、最后一段,以及每段的首句和尾句四部分拼接后的内容进行分类。如图3-1所示,短文本化处理的具体流程为:首先对输入的长文本进行判断,若含有摘要则直接提取摘要内容形成短文本,若不含摘要则提取长文本的首尾段及各段首尾句内容拼接形成短文本。将科技文本转化为短文本之后,还需要对短文本中除文字之外的一些其他标记如:链接、表情符号、图片、乱码等噪声数据进行处理,以免对后续分类效果产生不良影响。本文根据噪声特点,采用正则表达式对其去除。由于正则表达式去噪简单、成熟,本文不再赘述其原理与流程。图3-2所示为本文的原始数据(部分),图3-3所示为本文短文本化及去燥后的结果。图3-2原始中文科技论文数据(部分)图3-3原始中文科技论文数据短文本化及去噪后
纳疃妊?飞窬??纾?浠?舅枷胧峭ü?莨槔唇饩鲂蛄?建模的问题,具体来说就是在每一个时刻通过把前一个时刻和当前时刻的信息同时作为输入,获得当前时刻的输出,这样的方式使得RNN能对变长序列进行建模。其结构如图4-1所示,“=”的左边为其概括形式,右边为其展开形式,其中0,1,,表示输入序列,代表t时刻的输入,和1分别代表t和t-1时刻网络的输出向量。其隐藏层的计算过程如公式(4-1)所示。=(+1+)(4-1)其中,和分别为作用在和1上的权值矩阵,是偏置向量,为非线性激活函数。图4-1RNN示意图RNN虽然能够处理变长序列,但是由于在反向传播过程中会出现参数矩阵连乘的形式,使其存在梯度消失和梯度爆炸的问题,对于梯度爆炸的问题可以使用梯度裁剪方法来解决,而梯度消失的问题却很难解决。RNN存在的梯度消失问题,导致其无法有效捕获长距离信息,使其处理较长序列问题效果较差。为了解决该问题,研究者通过增加门结构的方式来改进RNN。1997年,Hochreiter[32]等人提出了LSTM,其结构如图4-2所示。LSTM在RNN的基础上增加了一个细胞状态以及3个门结构。细胞状态用于保存先前的信息,3个门控分别为遗忘门,输入门
本文编号:3113153
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
原始中文科技论文数据(部分)
第三章科技文本的预处理15以针对含有摘要的科技文本如:论文、专利等,本文直接基于摘要内容进行分类。对于不含摘要的科技文本如:新闻等,根据一篇文章的第一段和最后一段通常对整篇文本都有着概述作用,同时每一段的第一句和最后一句通常对该段有着概述作用,本文将此类文本的第一段、最后一段,以及每段的首句和尾句四部分拼接后的内容进行分类。如图3-1所示,短文本化处理的具体流程为:首先对输入的长文本进行判断,若含有摘要则直接提取摘要内容形成短文本,若不含摘要则提取长文本的首尾段及各段首尾句内容拼接形成短文本。将科技文本转化为短文本之后,还需要对短文本中除文字之外的一些其他标记如:链接、表情符号、图片、乱码等噪声数据进行处理,以免对后续分类效果产生不良影响。本文根据噪声特点,采用正则表达式对其去除。由于正则表达式去噪简单、成熟,本文不再赘述其原理与流程。图3-2所示为本文的原始数据(部分),图3-3所示为本文短文本化及去燥后的结果。图3-2原始中文科技论文数据(部分)图3-3原始中文科技论文数据短文本化及去噪后
纳疃妊?飞窬??纾?浠?舅枷胧峭ü?莨槔唇饩鲂蛄?建模的问题,具体来说就是在每一个时刻通过把前一个时刻和当前时刻的信息同时作为输入,获得当前时刻的输出,这样的方式使得RNN能对变长序列进行建模。其结构如图4-1所示,“=”的左边为其概括形式,右边为其展开形式,其中0,1,,表示输入序列,代表t时刻的输入,和1分别代表t和t-1时刻网络的输出向量。其隐藏层的计算过程如公式(4-1)所示。=(+1+)(4-1)其中,和分别为作用在和1上的权值矩阵,是偏置向量,为非线性激活函数。图4-1RNN示意图RNN虽然能够处理变长序列,但是由于在反向传播过程中会出现参数矩阵连乘的形式,使其存在梯度消失和梯度爆炸的问题,对于梯度爆炸的问题可以使用梯度裁剪方法来解决,而梯度消失的问题却很难解决。RNN存在的梯度消失问题,导致其无法有效捕获长距离信息,使其处理较长序列问题效果较差。为了解决该问题,研究者通过增加门结构的方式来改进RNN。1997年,Hochreiter[32]等人提出了LSTM,其结构如图4-2所示。LSTM在RNN的基础上增加了一个细胞状态以及3个门结构。细胞状态用于保存先前的信息,3个门控分别为遗忘门,输入门
本文编号:3113153
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3113153.html