基于深度学习的新能源汽车领域术语抽取
发布时间:2021-11-03 16:41
据调查,2013年以来,我国新能源汽车销量加速上升,本文通过对新能源汽车行业的深入调查发现,目前在新能源汽车领域,缺少对领域术语词库构建的研究工作。考虑到专利文本具有实用性和新颖性,是科技信息最有价值的载体之一,任何产业的革新势必体现在专利中。所以本文旨在以新能源汽车领域专利为数据源,进行新能源汽车领域术语抽取,从而建立一个基础的新能源汽车领域术语词库,为新能源汽车的后续研究奠定基础。目前,对特定领域术语抽取的方法主要是基于语言规则、统计方法及其组合的方式,而基于传统方法抽取新能源汽车领域术语主要存在以下问题,分词不准确导致后期文本挖掘噪声加大,文本表示维度过高导致计算复杂,对含有嵌套结构的词语发现能力不强等问题。针对以上问题,本文提出了基于深度学习的新能源汽车领域术语抽取模型。本文将新能源汽车领域术语抽取问题转化为序列标注问题,并提出了层叠条件随机场(Cascaded Conditional Random Fields,CCRF)领域术语抽取模型和BLSTMAttentionCRF领域术语抽取模型,分别对新能源汽车专利文本进行领域术语抽取,...
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
字级别标注结果
基于深度学习的新能源汽车领域术语抽取-32-5.2实验过程5.2.1数据预处理5.2.1.1基于字级别的预处理对新能源汽车领域术语抽取基于字级别的预处理数据主要用于CCRF模型的低层实验,对图5.1中的文本进行字级别处理以后的结果如图5.2所示。图5.2字级别标注结果5.2.1.1基于词级别的预处理对新能源汽车领域术语抽取的词级别预处理过程包括分词,去除停用词和人工标注三个过程。分词通过分词工具来完成,本文使用中国科学院计算技术研究所提供的ICTCLAS分词工具。对图5.1进行分词之后的结果如图5.3所示。图5.3分词以后的专利数据为验证低层条件随机场提取的简单词词库可以提高分词准确率,本文对比了加入词库和不加入词库两种情况下的分词结果,选取专利中的100篇作为实验语料,
河北工业大学硕士学位论文-33-同样先由人工进行标注,然后基于上述两种情况进行实验,实验结果如表5.2所示:表5.2分词结果实验条件P_准确率/%R_召回率/%F1值/%加入低层词库63.7962.2363.00不加入低层词库65.8865.0365.45由实验结果可知,加入低层词库以后分词准确率有明显提升,正确的分词结果将直接影响最终的标注结果。分词之后,对语料去除停用词,其中停用词表在哈工大停用词表的基础上,本文根据领域特殊性将停用词表扩充到1345个,其中部分停用词表如图5.4所示。图5.4停用词表最后对语料进行人工标注,为模型的训练提供语料支持,对图5.2的数据进行标注之后的结果如图5.5所示。图5.5词级别标注结果
【参考文献】:
期刊论文
[1]基于神经网络的微博情绪识别与诱因抽取联合模型[J]. 张晨,钱涛,姬东鸿. 计算机应用. 2018(09)
[2]基于自步学习的无监督属性选择算法[J]. 龚永红,郑威,吴林,谭马龙,余浩. 计算机应用. 2018(10)
[3]我国电动汽车产业专利情报分析与评价研究[J]. 张丽英. 东莞理工学院学报. 2018(02)
[4]基于循环层叠条件随机场的评价对象识别[J]. 霍立平. 兰州理工大学学报. 2018(01)
[5]汉语复句中基于依存关系与最大熵模型的词义消歧方法研究[J]. 李源,翟宏森,刘凤娇,黄文灿,杨梦川. 计算机与数字工程. 2018(01)
[6]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[7]基于Bi-LSTM-CRF网络的语义槽识别[J]. 徐梓翔,车万翔,刘挺. 智能计算机与应用. 2017(06)
[8]结合词语规则和SVM模型的军事命名实体关系抽取方法[J]. 高凤帅,杨化斌. 信息通信. 2017(11)
[9]机器人自然语言导航的层叠式条件随机场模型[J]. 王恒升,李熙印. 计算机工程与科学. 2017(08)
[10]基于word embedding的短文本特征扩展与分类[J]. 孟欣,左万利. 小型微型计算机系统. 2017(08)
硕士论文
[1]汉语专利术语抽取及应用研究[D]. 王密平.南京大学 2017
[2]基于改进HMM下自动摘要的生成[D]. 吴灿丽.浙江理工大学 2017
[3]基于领域本体的中文信息抽取研究[D]. 黄思思.华东师范大学 2016
[4]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[5]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[6]数据挖掘方法在评论分类中的应用研究[D]. 李杰骏.广东工业大学 2016
[7]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[8]基于隐马尔科夫模型在网页信息抽取中的研究与应用[D]. 双哲.华东师范大学 2016
[9]基于GATE的司法案件信息抽取方法研究[D]. 宋传宝.天津大学 2016
[10]实体关系抽取关键技术研究[D]. 刘绍毓.解放军信息工程大学 2015
本文编号:3474013
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
字级别标注结果
基于深度学习的新能源汽车领域术语抽取-32-5.2实验过程5.2.1数据预处理5.2.1.1基于字级别的预处理对新能源汽车领域术语抽取基于字级别的预处理数据主要用于CCRF模型的低层实验,对图5.1中的文本进行字级别处理以后的结果如图5.2所示。图5.2字级别标注结果5.2.1.1基于词级别的预处理对新能源汽车领域术语抽取的词级别预处理过程包括分词,去除停用词和人工标注三个过程。分词通过分词工具来完成,本文使用中国科学院计算技术研究所提供的ICTCLAS分词工具。对图5.1进行分词之后的结果如图5.3所示。图5.3分词以后的专利数据为验证低层条件随机场提取的简单词词库可以提高分词准确率,本文对比了加入词库和不加入词库两种情况下的分词结果,选取专利中的100篇作为实验语料,
河北工业大学硕士学位论文-33-同样先由人工进行标注,然后基于上述两种情况进行实验,实验结果如表5.2所示:表5.2分词结果实验条件P_准确率/%R_召回率/%F1值/%加入低层词库63.7962.2363.00不加入低层词库65.8865.0365.45由实验结果可知,加入低层词库以后分词准确率有明显提升,正确的分词结果将直接影响最终的标注结果。分词之后,对语料去除停用词,其中停用词表在哈工大停用词表的基础上,本文根据领域特殊性将停用词表扩充到1345个,其中部分停用词表如图5.4所示。图5.4停用词表最后对语料进行人工标注,为模型的训练提供语料支持,对图5.2的数据进行标注之后的结果如图5.5所示。图5.5词级别标注结果
【参考文献】:
期刊论文
[1]基于神经网络的微博情绪识别与诱因抽取联合模型[J]. 张晨,钱涛,姬东鸿. 计算机应用. 2018(09)
[2]基于自步学习的无监督属性选择算法[J]. 龚永红,郑威,吴林,谭马龙,余浩. 计算机应用. 2018(10)
[3]我国电动汽车产业专利情报分析与评价研究[J]. 张丽英. 东莞理工学院学报. 2018(02)
[4]基于循环层叠条件随机场的评价对象识别[J]. 霍立平. 兰州理工大学学报. 2018(01)
[5]汉语复句中基于依存关系与最大熵模型的词义消歧方法研究[J]. 李源,翟宏森,刘凤娇,黄文灿,杨梦川. 计算机与数字工程. 2018(01)
[6]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[7]基于Bi-LSTM-CRF网络的语义槽识别[J]. 徐梓翔,车万翔,刘挺. 智能计算机与应用. 2017(06)
[8]结合词语规则和SVM模型的军事命名实体关系抽取方法[J]. 高凤帅,杨化斌. 信息通信. 2017(11)
[9]机器人自然语言导航的层叠式条件随机场模型[J]. 王恒升,李熙印. 计算机工程与科学. 2017(08)
[10]基于word embedding的短文本特征扩展与分类[J]. 孟欣,左万利. 小型微型计算机系统. 2017(08)
硕士论文
[1]汉语专利术语抽取及应用研究[D]. 王密平.南京大学 2017
[2]基于改进HMM下自动摘要的生成[D]. 吴灿丽.浙江理工大学 2017
[3]基于领域本体的中文信息抽取研究[D]. 黄思思.华东师范大学 2016
[4]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[5]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[6]数据挖掘方法在评论分类中的应用研究[D]. 李杰骏.广东工业大学 2016
[7]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[8]基于隐马尔科夫模型在网页信息抽取中的研究与应用[D]. 双哲.华东师范大学 2016
[9]基于GATE的司法案件信息抽取方法研究[D]. 宋传宝.天津大学 2016
[10]实体关系抽取关键技术研究[D]. 刘绍毓.解放军信息工程大学 2015
本文编号:3474013
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3474013.html