基于概率图模型的代码库数据挖掘

发布时间:2017-03-20 00:06

  本文关键词:基于概率图模型的代码库数据挖掘,由笔耕文化传播整理发布。


【摘要】:源代码阅读是一项十分困难的工作,特别是对于那些有成百上千个文件的源代码工程而言,比如Linux和Gcc这样的开源代码库,我们很难能够在短时间内清楚一个源文件是在做什么。所以对源代码文件进行分析的自动化工具变得十分重要,例如一些可以自动分析软件结构、功能、调用关系、开发过程甚至是开发人员与代码之间的一些联系等等。一些传统的主题模型比如LDA模型可以利用概率关系从文本中挖掘其中包含的多种主题。但是源代码数据与普通文本有着显著的区别,它们的各部分结构不是“平等”的。一个代码文件中包含的数据有接近普通文本的注释,也有受到程序语言约束的代码。另外,非监督型主题模型只能够给出主题的词分布,而无法得到确切的分类名。而且目前并没有一个针对代码分类的标准分类系统。在这篇文章中,我们提出了一个新的针对源代码库设计的概率图模型,用来对源代码库进行主题挖掘。这个模型不是将代码文件当成普通文本处理,而是将不同的部分,包括代码、注释、以及提交记录信息,进行不同的处理并通过主题将他们结合起来。因此,这个模型在模拟源代码库的生成过程中,相比于其它的传统主题挖掘方法更加贴近源代码库的真实生成过程。这使得我们得到的主题分布将更加可靠。但是,如果只有这个概率图模型,我们仍然不能得到一个源代码文件的确切分类。所以我们选择建立一个针对与源代码库的分类系统。在本文中,我们选择了对来自于著名的程序问答网站Stack over?ow的数据进行处理,建立了一个多分枝的层次化分类系统。同时,我们采用了不同的映射方法将源代码文件最终映射到相应的分类系统中。
【关键词】:代码主题数据挖掘 EM推导 分类系统构建
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要3-4
  • ABSTRACT4-9
  • 主要符号对照表9-10
  • 第一章 绪论10-16
  • 1.1 研究背景及意义10-13
  • 1.2 研究内容13
  • 1.3 主要挑战13-14
  • 1.4 本章小结14-16
  • 第二章 相关研究及技术介绍16-22
  • 2.1 主题模型16-19
  • 2.2 源代码库数据挖掘19-20
  • 2.3 分类系统20-21
  • 2.4 本章小结21-22
  • 第三章 针对源代码库的概率图模型22-32
  • 3.1 预备知识22-23
  • 3.1.1 源代码文本库22-23
  • 3.2 问题定义23-25
  • 3.3 概率图模型25-28
  • 3.3.1 动机25
  • 3.3.2 概率图模型25-28
  • 3.4 图模型推导与求解28-31
  • 3.4.1 EM算法28-29
  • 3.4.2 源代码数据的极大似然29-31
  • 3.5 本章总结31-32
  • 第四章 源代码库分类系统32-40
  • 4.1 动机32
  • 4.2 分类系统类型32-34
  • 4.3 分类构建方法34-39
  • 4.3.1 多分枝层次聚类算法HAC34-37
  • 4.3.2 分类特征向量37
  • 4.3.3 从主题分布到分类系统映射37-39
  • 4.4 本章总结39-40
  • 第五章 实验与评估40-46
  • 5.1 数据准备40-42
  • 5.2 代码主题学习42-45
  • 5.3 本章总结45-46
  • 全文总结46-48
  • 附录A EM算法推导48-52
  • A.1 EM算法推导48-52
  • 参考文献52-54
  • 致谢54-56
  • 攻读学位期间发表的学术论文目录56-58

【相似文献】

中国期刊全文数据库 前7条

1 陈宇;徐开勇;李立新;王惠芳;;两种重用本地代码库的方法比较[J];计算机工程;2006年09期

2 刘华军;;深入解析P/Invoke[J];程序员;2006年06期

3 Michael Shoffner ,毛嘉青;龙争虎斗——JavaBeans与ActiveX策略分析[J];微电脑世界;1997年04期

4 古俐明;录取新生信息管理系统的设计与实现[J];广东民族学院学报(自然科学版);1996年04期

5 李继华;走进VB6 更上一层楼(五)[J];电脑爱好者;1999年08期

6 贾志斌;“死库复活”的算法研究[J];西北师范大学学报(自然科学版);1998年01期

7 ;[J];;年期

中国重要报纸全文数据库 前3条

1 金华;利用源代码库提高开发效率[N];中国计算机报;2003年

2 祁金华;Linux服务是否可替代?[N];网络世界;2006年

3 ;专家热议:Hypervisor的未来将会如何?[N];网络世界;2012年

中国硕士学位论文全文数据库 前1条

1 姜凯;基于概率图模型的代码库数据挖掘[D];上海交通大学;2015年


  本文关键词:基于概率图模型的代码库数据挖掘,由笔耕文化传播整理发布。



本文编号:256805

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/256805.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9e054***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com