面向开源社区的软件大数据持续汇聚平台关键技术研究与实现
发布时间:2021-03-30 15:40
近些年,开源软件发展迅猛,其应用领域和适用范围越来越广泛;与此同时,开源软件的成功也吸引了大量的开发者投入到开源软件的开发,仅GitHub社区就已经托管了 6千多万的版本库,有超过2千万的用户参与到这些项目仓库的开发和维护。开源软件社区积累了大量的软件开发和开发者行为等数据,这些极具挖掘价值的数据逐步引起了研究人员的关注,已经有相关工作对开源软件相关的研究点(如群体开发机制和质量保证手段)展开了一系列探索。高效可靠的数据获取是研究工作开展的重要前提,为了更好地支持此类研究的有效开展,在本文中我们面向GitHub开源社区提出了一个软件大数据数据持续汇聚平台,其主要内容包括:第一,在原始数据采集方面,本文提出了一个易扩展的高效数据采集方法。本文按照系统的业务逻辑把整个系统拆分为任务生成和任务执行两个模块,两个模块之间通过任务队列和数据存储进行连接和交互。通过这种解耦合的方式,本文把系统中相对耗时和耗费资源的任务执行模块并行化,提高系统实时横向扩展的能力,能够更好地满足用户对数据采集系统高速率的采集需求。第二,在结构化数据抽取方面,本文提出了面向数据多源性的数据抽取模型。本文根据开源社区中数...
【文章来源】:长沙理工大学湖南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
开源社区发展现状
?硕士学位论文???丰富的一个,它在允许个人与组织创建、浏览公开的版本库的同时,还提供社区化的??软件开发服务,这些服务包括允许用户关注其他用户,查看版本库的改动、issue和评??论等;除此之外,GkHub也提供Wiki功能以及使用Git进行协同开发的功能。仅在??GitHub社区,就己经有2400万注册用户和6700万版本库开发者在开源社区的贡献热??情空前高涨。如图1.2所示,GitHub热门项目被成千上万的贡献者所关注,每天都接收??到来自社区的大众贡献。??
统的各个模块进行操作,便于对系统的实时控制。??1.5论文结构??本文围绕开源社区中软件大数据采集技术展开研究,论文的结构如图1.4所示。??面向开源社区的软件大数据持续汇聚平台??/■?、'、、:’?广?N?N?\??f?N?:?;?.?'?:?;?/-?\??第一章?第二章?第三章?第四章?丨?第五章??绪论?相关技术介绍?系统设计?系统实现与评估?总结与展望??V?J???!?'?'<?!?;?V.???!?v?y?:?:?\?/?:?:?V?/?:??.数抿龙想??数据采集模块?????数据抽取模块??系统展示?????数据展示楔块??系统评估????系统管理模块??V??ZI?J??图1.4论文结构??第一章绪论介绍了本文的研究背景和研宄现状,分析了开源软件社区的发展以及??开源软件大数据采集系统的研究意义,在此基础上我们提出了本文的研究内容,并总??结了我们的主要工作和贡献。??在第二章中,我们从数据采集、数据抽取和数据可视化三个方面对本文中涉及到??的相关技术背景进行了介绍。??第三章介绍了系统设计,并分别详细介绍了数据采集模块、数据抽取模块、数据??展示模块和系统辅助模块。??在第四章中,我们展示了系统的具体实现效果,并对系统的相关指标进行了评估。??在第五章中,我们对全文做了总结,并展望了未来进一步的研宄方向。??7??
【参考文献】:
期刊论文
[1]基于Scrapy的农业网络数据爬取[J]. 李乔宇,尚明华,王富军,刘淑云. 山东农业科学. 2018(01)
[2]基于大数据的GitHub开源社区开源项目量化分析[J]. 叶培根,毛建华,刘学锋. 电子测量技术. 2017(08)
[3]GitHub开源软件开发过程中影响因素的相关性分析[J]. 杨波,于茜,张伟,吴际,刘超. 软件学报. 2017(06)
[4]基于GitHub的软件缺陷数据预处理[J]. 类兴明,杨春花. 齐鲁工业大学学报(自然科学版). 2016(03)
[5]一种基于P2P技术的分布式微博爬虫系统[J]. 卢杨,李华康,孙国梓. 江苏大学学报(自然科学版). 2016(03)
[6]基于MapReduce的网络爬虫设计与实现[J]. 李晨,朱世伟,赵燕清,于俊凤. 山东科学. 2015(02)
硕士论文
[1]基于关键词的微博爬虫系统的设计与实现[D]. 叶婷.浙江工业大学 2016
[2]基于Chrome浏览器插件的爬虫系统[D]. 魏少鹏.东华大学 2016
本文编号:3109748
【文章来源】:长沙理工大学湖南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
开源社区发展现状
?硕士学位论文???丰富的一个,它在允许个人与组织创建、浏览公开的版本库的同时,还提供社区化的??软件开发服务,这些服务包括允许用户关注其他用户,查看版本库的改动、issue和评??论等;除此之外,GkHub也提供Wiki功能以及使用Git进行协同开发的功能。仅在??GitHub社区,就己经有2400万注册用户和6700万版本库开发者在开源社区的贡献热??情空前高涨。如图1.2所示,GitHub热门项目被成千上万的贡献者所关注,每天都接收??到来自社区的大众贡献。??
统的各个模块进行操作,便于对系统的实时控制。??1.5论文结构??本文围绕开源社区中软件大数据采集技术展开研究,论文的结构如图1.4所示。??面向开源社区的软件大数据持续汇聚平台??/■?、'、、:’?广?N?N?\??f?N?:?;?.?'?:?;?/-?\??第一章?第二章?第三章?第四章?丨?第五章??绪论?相关技术介绍?系统设计?系统实现与评估?总结与展望??V?J???!?'?'<?!?;?V.???!?v?y?:?:?\?/?:?:?V?/?:??.数抿龙想??数据采集模块?????数据抽取模块??系统展示?????数据展示楔块??系统评估????系统管理模块??V??ZI?J??图1.4论文结构??第一章绪论介绍了本文的研究背景和研宄现状,分析了开源软件社区的发展以及??开源软件大数据采集系统的研究意义,在此基础上我们提出了本文的研究内容,并总??结了我们的主要工作和贡献。??在第二章中,我们从数据采集、数据抽取和数据可视化三个方面对本文中涉及到??的相关技术背景进行了介绍。??第三章介绍了系统设计,并分别详细介绍了数据采集模块、数据抽取模块、数据??展示模块和系统辅助模块。??在第四章中,我们展示了系统的具体实现效果,并对系统的相关指标进行了评估。??在第五章中,我们对全文做了总结,并展望了未来进一步的研宄方向。??7??
【参考文献】:
期刊论文
[1]基于Scrapy的农业网络数据爬取[J]. 李乔宇,尚明华,王富军,刘淑云. 山东农业科学. 2018(01)
[2]基于大数据的GitHub开源社区开源项目量化分析[J]. 叶培根,毛建华,刘学锋. 电子测量技术. 2017(08)
[3]GitHub开源软件开发过程中影响因素的相关性分析[J]. 杨波,于茜,张伟,吴际,刘超. 软件学报. 2017(06)
[4]基于GitHub的软件缺陷数据预处理[J]. 类兴明,杨春花. 齐鲁工业大学学报(自然科学版). 2016(03)
[5]一种基于P2P技术的分布式微博爬虫系统[J]. 卢杨,李华康,孙国梓. 江苏大学学报(自然科学版). 2016(03)
[6]基于MapReduce的网络爬虫设计与实现[J]. 李晨,朱世伟,赵燕清,于俊凤. 山东科学. 2015(02)
硕士论文
[1]基于关键词的微博爬虫系统的设计与实现[D]. 叶婷.浙江工业大学 2016
[2]基于Chrome浏览器插件的爬虫系统[D]. 魏少鹏.东华大学 2016
本文编号:3109748
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3109748.html