循环神经网络在缺陷报告重复检测上的研究及应用

发布时间:2021-04-16 18:03
  研究表明处理大量的重复缺陷会对人力造成极大的浪费,特别对于大型的项目来说尤其明显。为了减轻人工检测重复报告的工作量,缩减人工管理缺陷的时间,开展缺陷报告自动重复检测方法的研究是具有价值的。本文系统的分析了重复缺陷报告产生的原因,发展现状及其意义,并对国内外的重复缺陷研究方法及深度学习在文本相似度上的方法进行了综述。最终基于循环神经网络(Recurrent Neural Networks,简称RNN)与Attention机制的理论及技术,将LSTM(Long Short-Term Memory)模型,BI-LSTM(Bi-directional Long Short-Term Memory)模型,双层BI-LSTM模型及使用Attention机制的双层BI-LSTM模型,应用于重复缺陷报告领域,用于计算两个缺陷报告间的相似度。并以开源项目Eclipse产生的缺陷报告作为数据集,对比前人经验筛选出数据源对上述模型进行实验,之后对各模型结果进行了对比与分析,并进行了一定程度的调优。整体思路是将缺陷报告分为相似与不相似两类,当两个缺陷报告计算出的结果大于某个阈值时,即判定为两文本相似。并在各个... 

【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

循环神经网络在缺陷报告重复检测上的研究及应用


图3.4标题长度对实验结果的影响??Figure?3.4?Effect?of?title?length?on?experiment?results??

长度,准确率,标题,召回率


3基于LSTM的重复缺陷报告检测??96.00%??94.00%??92.00%??90.00%??H?H?_??80.00%?——_??20?30?40?50??■准确率■召回率■?FI值??图3.4标题长度对实验结果的影响??Figure?3.4?Effect?of?title?length?on?experiment?results??由图3.4可知,标题长度选择为40时,模型的三种评价指标都有所提升,此时??准确率达到LSTM模型的最高。??96.00%??94.00%??92.00%??90.00%??88.00%?■?H?_??i?I?I?I?III?III??78.00%?^?^?^?^?,.h_??100?125?135?150??■准确率■召回率■?FI值??图3.5描述长度对实验结果的影响??Figure?3.5?Describe?the?eflfect?of?length?on?experimental?results??由图3.5可知,在标题长度达到最优之后,对描述长度进行对比实验,当描述长??度为125时,该模型的准确率达到了最优,为87.42%。??25??

示意图,神经网络,示意图,特征检测


Dropout?技术??Dropout技术的提出,主要为了解决过拟合问题,使模型能够更好的完成训练。??其在2012年Hinton的论文中首次被提出,它能够提高神经网络的性能,它主要是通??过减少特征检测器的共同作用实现(Hinton?etal,2012)。在每次训练过程中,将部分隐??藏层的节点设置成0,忽略部分特征检测,可以明显地减少过拟合现象。即在前向传??播的时候,设置一定的几率让&些神经元的激活值停止工作,这样可以使模型不会太??依赖菜些局部的特征,从而提高泛化能力。??图3.7神经网络Dropout示意图??Figure?3.7?Neural?network?dropout?schematic??27??

【参考文献】:
期刊论文
[1]双向循环神经网络在语音识别中的应用[J]. 更藏措毛,黄鹤鸣.  计算机与现代化. 2019(10)
[2]融合文本与分类信息的重复缺陷报告检测方法[J]. 范道远,孙吉红,王炜,涂吉屏,何欣.  计算机科学. 2019(12)
[3]基于深度学习的文本相似度计算[J]. 邵恒,冯兴乐,包芬.  郑州大学学报(理学版). 2020(01)
[4]基于CNN和BiLSTM的短文本相似度计算方法[J]. 郭浩,许伟,卢凯,唐球.  信息技术与网络安全. 2019(06)
[5]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源.  情报科学. 2019(03)
[6]软件测试自动化方法研究[J]. 彭迪.  电子质量. 2018(11)
[7]OSDR:一种开源软件的缺陷修复人推荐方法[J]. 张文,李自强,杜宇航,赵博扬.  计算机应用与软件. 2017(08)
[8]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋.  自动化学报. 2016(10)
[9]一种新的基于N-gram模型的重复软件缺陷报告检测方法[J]. 李宁,李战怀,张利军.  西北工业大学学报. 2010(02)
[10]软件缺陷数据处理研究综述[J]. 李宁,李战怀.  计算机科学. 2009(08)

博士论文
[1]众包测试报告的挖掘与评估[D]. 陈信.大连理工大学 2018
[2]软件缺陷报告管理关键技术研究[D]. 喻维.华南理工大学 2018
[3]软件测试及评价的复用策略研究及其实现[D]. 夏启明.武汉大学 2010

硕士论文
[1]基于深度学习的短文本相似度分析与实现[D]. 韩建辉.北方工业大学 2019
[2]软件测试信息管理系统的设计与实现[D]. 胡畔.电子科技大学 2018
[3]基于Attention Bi-LSTM的文本分类方法研究[D]. 王恰.华南理工大学 2018
[4]基于LSTM的文本相似度识别方法研究[D]. 杨飞.吉林大学 2018
[5]软件缺陷管理系统的设计与实现[D]. 王汉雄.哈尔滨工业大学 2017
[6]基于多平台应用的软件缺陷管理系统的设计与实现[D]. 袁林艳.天津大学 2017
[7]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[8]自动重复缺陷报告检测方法研究[D]. 王彬.华东师范大学 2016
[9]基于LDA模型的重复缺陷报告检测的研究[D]. 蒋欣志.重庆大学 2013



本文编号:3141911

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3141911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9fcdd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com