基于门控卷积神经网络的代码自动摘要算法

发布时间：2021-09-07 19:02

　　随着互联网技术的发展和开源社区的兴起,开源代码的数量急剧增加,从开源社区中发掘出有用信息需要耗费大量的时间和精力。自动摘要技术广泛地应用于文本主要内容的获取,但针对代码的相关技术研究较少。本文使用深度学习思想解决这一问题,利用卷积神经网络（Convolutional Neural Networks,CNN）模型提取代码特征,从而缓解信息爆炸带给人们的时间精力问题。本文对代码自动摘要问题进行了分析,将问题拆分为代码特征提取和摘要自动生成两个子问题,结合深度学习中端到端的模型设计思想,在设计模型时综合考虑这两个问题,提出了一种基于深度学习的代码自动摘要模型。本文首先对代码特征提取问题进行了研究,本文使用门控卷积神经网络提取代码的文本特征,在门控卷积神经网络中,对输入元素添加位置信息以获取序列中词的位置,引入门控线性单元使模型可以选择对预测有益的词或者特征,利用残差连接解决梯度弥散问题。本文使用抽象语法树卷积神经网络提取代码的结构特征,在抽象语法树卷积神经网络中,使用Tree-Based CNN和Pre-Order CNN相结合的方式,获取语法树中节点的完整信息。本文其次对摘要自动生成问题进...

【文章来源】：云南大学云南省 211工程院校

【文章页数】：58 页

【学位级别】：硕士

【部分图文】：

基于门控卷积神经网络的代码自动摘要算法

图２－２：门控卷积神经网络模型结构图??资料来源：ＦＡＩＲ：《Ｌａｎｇｕａｇｅ?Ｍｏｄｅｌｉｎｇ?ｗｉｔｈ?Ｇａｔｅｄ?Ｃｏｎｖｏｌｕｔｉｏｎａｌ?Ｎｅｔｗｏｒｋｓ》，２０１６?年

结构图,改进模型,结构图,注意力机制

?（２．２）??其中，Ｐ为每个词对应的概率，ｇ为Ｓｏｆｔｍａｘ函数。??Ｇｏｏｇｌｅ团队［３Ｑ１提出了?Ｓｅｑ２Ｓｅｑ模型的改进模型，其模型结构如图２－４所示。??Ｗ?Ｘ?Ｙ?Ｚ?＜ＥＯＳ＞??；ｋ?ｈ?“?＞?＾?Ａ???＾?＾?＾??＞??？??？??Ａ?“?ｉ?ｖ?“?“?“?ｉ?［??ＡＢＣ?＜ＥＯＳ＞?Ｗ?Ｘ?Ｙ?Ｚ??图２＿４：?Ｓｅｑ２Ｓｅｑ改进模型结构图??资料来源：Ｇｏｏｇｌｅ?Ｂｒａｉｎ：《Ｓｅｑｕｅｎｃｅ?ｔｏ?Ｓｅｑｕｅｎｃｅ?Ｌｅａｒｎｉｎｇ?ｗｉｔｈ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋｓ》，２０１４?年。??图２－４为在时间维度上进行展开的模型图，在未展开的情况下，Ｅｎｃｏｄｅｒ端??使用一个神经网络接收输入序列“ＡＢ?ＣＥＯＳ（ＥＯＳ＝ＥｎｄｏｆＳｅｎｔｅｎｃｅ，句末标记）”，??在接收过程中，每隔一个时间点接收一个字或者词，在读取到ＥＯＳ时停止输入，??最后输出一个向量作为输入序列的语义表征向量。Ｄｅｃｏｄｅｒ端使用第二个神经网??络接收到Ｅｎｃｏｄｅｒ端产生的输出向量后，再输出对应的语义向量，此时每个时间??点输出词的概率都与前一个时间点的输出相关，最后将输入序列依次映射为“Ｗ??Ｘ?Ｙ?Ｚ?ＥＯＳ”，从而实现语句的翻译任务。??２．２．２?注意力机制（Ａｔｔｅｎｔｉｏｎ?Ｍｅｃｈａｎｉｓｍ）??注意力机制（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）最早被提出是在视觉图像领域。之后由??于Ｇｏｏｇｌｅ?Ｂｒａｉｎ团队１５７］在ＲＮＮ模型的基础上引入了注意力机制来完成图像分类??任务

算法,概率分布,概率,组成序列

?０．１??图２－７：?Ｂｅａｍ?Ｓｅａｒｃｈ算法示例图??以图２－７为例，Ｋ的值为２，?Ｋ为集束宽度（Ｂｅａｍ?Ｗｉｄｔｈ）。??首先，在［０．１，０．１，０．３，０．４，０．１］概率分布中挑选出概率最大的两个数值：０．３和??０．４，代表的序列分别为Ｊｅ和ｍｏｉ。??然后，将Ｊｅ和ｍｏｉ分别作为解码器端的输入，获得两个概率分布，再从得??到的两个概率分布中选择概率和最大的组成序列：０．３＋０．８和０．４＋０．６，代表的序??列分别为Ｊｅ?ｓｕｉｓ和ｍｏｉ?ｓｕｉｓ。??以此类推，得到最终的两个序列，分别为Ｊｅ?ｓｕｉｓ?ｄｔｕｄｉａｎｔ和ｍｏｉ?ｓｕｉｓ?ｄｔｕｄｉａｎｔ，??两者相比，前者的概率和最大，即为最终结果。??２．２．４?双语互译质量辅助工具算法（ＢＬＥＵ）??在机器翻译领域当中，需要一个用来衡量机器翻译结果与人工翻译结果匹配??度的指标。为了能够获取更好的效果

【参考文献】：
期刊论文
[1]基于结构感知双编码器的代码注释自动生成[J]. 徐少峰,潘文韬,熊赟,朱扬勇.  计算机工程. 2020(02)
[2]基于改进Sequence-to-Sequence模型的文本摘要生成方法[J]. 周健,田萱,崔晓晖.  计算机工程与应用. 2019(01)
[3]一种改进的基于抽象语法树的软件源代码比对算法[J]. 刘楠,韩丽芳,夏坤峰,曲通.  信息网络安全. 2014(01)
[4]一个重建GCC抽象语法树的方法[J]. 刘文伟,刘坚.  计算机工程与应用. 2004(18)

硕士论文
[1]基于抽象语法树的程序代码抄袭检测技术研究[D]. 赵彦博.内蒙古师范大学 2010

本文编号：3390085

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3390085.html

上一篇：基于UWB及语义地图的室内移动机器人定位与路径规划关键技术研究
下一篇：基于通信和能量的无线传感器网络节点信任模型研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|