基于深度学习的科技项目申报文本相似性检测方法研究
发布时间:2020-12-10 13:19
十八大以来,随着“科教兴国”、“创新驱动”与“人才强国”核心发展战略的确立,我国对于科研课题的扶持力度不断增大,各类科技项目的立项数目与经费连续5年实现了历史性突破。科技项目数量的逐年上升无疑促进了我国科技创新事业的高速发展,然而,海量的科技项目与快速增长的科研课题,却给科技项目的有效评审与合理审计带来极大困难,随之引发的“交叉申报”、“多头申报”等现象则令我国科技计划的有效开展陷入僵局。因此,如何建立高效的项目管理机制,避免科技项目的无序发展与低水平重复,确保科研立题的创新性与先进性,已成为我国科技计划管理部门亟待解决的关键问题之一。本文基于科技项目的重复立项问题,对其相似性评估的方法进行了研究,针对目前科技项目重复性检测方面的命名实体难以识别、实体关系难以提取、语义挖掘能力有限与相似性评估精度不佳四个问题,提出了基于深度学习的科技项目申报文本相似性检测方法。首先,针对科技项目文本中命名实体难以有效识别的问题,提出一种基于迁移学习的命名实体识别模型。该模型采用学习率重启机制对BERT模型进行了优化,并结合大规模科技语料库对基线模型进行了二次预训练,从而学习丰富的科技类文本语义关系及语...
【文章来源】:东北电力大学吉林省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图3-5学习率重启过程??由图3-5可知,在模型的迭代过程中,学习率首先能够以较高的数值与较少的??重启迭代次数加速模型训练,并减小陷入“鞍点”的概率;随后,学习率以快于线性??
?第3章基于迁移学习的命名实体识别模型???-,,??[r?/??g?0.6?I?H?/.??I?f?/????蝴?〇?4?训?,,?—Fold?I?AUC=0.93??y?—?FoId2?AUC=092??I?Z?一?F〇W3?AUC=0?89??H?^?c?Fold4?AUO0?89??〇.2丨f?/?—陽服養??—?Mean?AUC=0?90??〇.〇?k???/?????????0.0?0.2?0.4?0.6?0.8?1.0??假阳率(FPR)??图3-8?TL-NERM模型5-fold交叉验证ROC曲线及AUC值示意图??由图3-8可知,TL-NERM模型的5-fold交叉验证与均值ROC曲线整体逼近于(0,1)??点,且5-fold交叉验证与均值ROC曲线较为平滑,6项AUC值均保持在0.9左右,??从而验证了本模型在命名实体识别方面具有一定的同质性与有效性。??此外,为验证TL-NERM模型在吋间复杂度方面的性能提升,选収原始BERT-base??模型、原始BERT-base-BiLSTM-CRF与本模型的二次预训练阶段和迁移学习阶段进行??对比试验,本模型二次预训练与BERT-base模型二次预训练的时间代价如图3-9所示:??200??■■?TL-NERM?,7???■?BERT-base??■?_|??0?10?50?100??样本数量(万句)??图3-9?TL-NERM模型与原始BERT-base模型的二次预训练时间代价示意图??-25?-??
?Thrdi,x?(/,?x)??14?if?Frequency(i,?x)?<?Thrd“x?(i,?x)??15?delet?groupie??16?else?add?groupie?to?Doci(E-R)??17?return?Dod(E-R)?=?[Entityi,\-Relation?i、\,…,Entity?i,M-Relation??END??基于上述过程,可以实现对科技项目申报文本中命名实体关系的高质量抽取,??EGCF-ERE算法的部分实体关系抽取结果如图4-3:??In?[30]:?runfile(?}??docSample?=?{??['肠道菌群?肿瘤、^肠道微环境1??[_肠道、?免疫反应_肠癌_]??['腹内感染、’抗生素、?结肠、’直肠癌1??[_肠道’微生物_,'上皮细胞、?人体免疫系统’,?平衡’]??[_肠道、?微生物、?结肠癌’]??[’肠道微生物、?代谢产物、’致癌’,’抑癌_]??['肠道菌群’直肠癌_]??图4-3?EGCF-ERE算法的部分命名实体关系抽取结果图??由图4-3可知,根据EGCF-ERE算法可对实体关系进行抽取,并构成与文档主题??语义相关性较高的多个共现实体组。??-34-??
本文编号:2908764
【文章来源】:东北电力大学吉林省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图3-5学习率重启过程??由图3-5可知,在模型的迭代过程中,学习率首先能够以较高的数值与较少的??重启迭代次数加速模型训练,并减小陷入“鞍点”的概率;随后,学习率以快于线性??
?第3章基于迁移学习的命名实体识别模型???-,,??[r?/??g?0.6?I?H?/.??I?f?/????蝴?〇?4?训?,,?—Fold?I?AUC=0.93??y?—?FoId2?AUC=092??I?Z?一?F〇W3?AUC=0?89??H?^?c?Fold4?AUO0?89??〇.2丨f?/?—陽服養??—?Mean?AUC=0?90??〇.〇?k???/?????????0.0?0.2?0.4?0.6?0.8?1.0??假阳率(FPR)??图3-8?TL-NERM模型5-fold交叉验证ROC曲线及AUC值示意图??由图3-8可知,TL-NERM模型的5-fold交叉验证与均值ROC曲线整体逼近于(0,1)??点,且5-fold交叉验证与均值ROC曲线较为平滑,6项AUC值均保持在0.9左右,??从而验证了本模型在命名实体识别方面具有一定的同质性与有效性。??此外,为验证TL-NERM模型在吋间复杂度方面的性能提升,选収原始BERT-base??模型、原始BERT-base-BiLSTM-CRF与本模型的二次预训练阶段和迁移学习阶段进行??对比试验,本模型二次预训练与BERT-base模型二次预训练的时间代价如图3-9所示:??200??■■?TL-NERM?,7???■?BERT-base??■?_|??0?10?50?100??样本数量(万句)??图3-9?TL-NERM模型与原始BERT-base模型的二次预训练时间代价示意图??-25?-??
?Thrdi,x?(/,?x)??14?if?Frequency(i,?x)?<?Thrd“x?(i,?x)??15?delet?groupie??16?else?add?groupie?to?Doci(E-R)??17?return?Dod(E-R)?=?[Entityi,\-Relation?i、\,…,Entity?i,M-Relation??END??基于上述过程,可以实现对科技项目申报文本中命名实体关系的高质量抽取,??EGCF-ERE算法的部分实体关系抽取结果如图4-3:??In?[30]:?runfile(?}??docSample?=?{??['肠道菌群?肿瘤、^肠道微环境1??[_肠道、?免疫反应_肠癌_]??['腹内感染、’抗生素、?结肠、’直肠癌1??[_肠道’微生物_,'上皮细胞、?人体免疫系统’,?平衡’]??[_肠道、?微生物、?结肠癌’]??[’肠道微生物、?代谢产物、’致癌’,’抑癌_]??['肠道菌群’直肠癌_]??图4-3?EGCF-ERE算法的部分命名实体关系抽取结果图??由图4-3可知,根据EGCF-ERE算法可对实体关系进行抽取,并构成与文档主题??语义相关性较高的多个共现实体组。??-34-??
本文编号:2908764
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2908764.html
最近更新
教材专著