当前位置:主页 > 论文百科 > 研究生论文 >

“开源中国”代码分享社区的沟通网络分析

发布时间:2016-05-09 15:13

第一章  绪论


1.1  研究背景 随着互联网

Web2.0 时代的到来,互联网内容的创造者已从少数人群逐步转变为普通大众,依赖于计算机网络,乐于无偿奉献的专业人士,进而集体协作的概念真正得以成型,美国耶鲁大学的 Yochai Benkler 最早将这种全新的生产模式称为“大众生产” (PeerProduction)。

互联网的进一步普及,将原来分散在世界各地的开发人员逐渐聚合在一起,只要有一个合适的平台、好的框架,,大家就可以一起协作,分工合作,开发出产品级的工具软件(以 Eclipse,JBoss,MySQL,Subversion,GLASSFISH 为例),在具有成功典范后,从而开源成为了一种趋势。开源软件大量地出现,使得软件外包更加地普及,主要特征有如下几点:1 硬件产品的计算能力的进一步增强,集成开发环境更加强劲、更加地智能,获得成型的函数库更加地方便,应用软件的开发变得更加地便捷。2 软件研发具有一次性投资的特点,许多的场合需要用软件来替代硬件,使得软件的需求成倍增加。3.消费类的电子与人们的生活紧密联系,各种与生活、休闲相关的软件、桌面游戏等各中软件可以满足人们的物资和精神方面的需要。因而需要的软件开发人员数量急剧增长。在实际中,软件开发需要的的组织是小规模开发团队,在需求大增以及降低成本的双重压力下,开发外包马上得非常地普及;4.项目的复杂度在不断增加,因而需要的系统会逐步智能,同时系统开发也不需要从零开始,可以利用业内现成的免费框架进行有针对性且切合实际的二次开发。

开源社区又称开放源代码社区,通常都是由拥有共同兴趣爱好的人所组成,根据相应的开源软件许可证、协议公布软件源代码的网络平台,同时也为网络成员提供一个自由学习交流的空间,因而开源社区就成了他们沟通交流的必要途径,因此开源社区在推动开源软件发展的过程中起着非常巨大的作用。

....................


1.2文献综述

自从 1980 年代理查德?马修?斯托曼(Richard Stallman)创建了自由软件基金会(Free Software  Foundation)以及自由软件联盟计划(GNU)以来,开源软件的发展逐步形成了自有的独特模式。Stewart and Gosain(2006)认为“开源产品与传统商业软件通常由其许可协议的不同加以区分”,由于自由、免费和共享,导致开源软件在国外蓬勃发展,并形成了以 kernel、Linux、Sourceforge、open office 等为代表的著名开源社区。

国外学者针对开源软件的研究工作起步早,范围广泛,即包括开源社区组织方面的研究,也包括开源社区参与者行为模式方面的研究。从组织管理学的角度来看,Nakakoji et.al(2002)把开源社区的全部参与人员划分为八类:跟随的用户、浏览者、缺陷报告者、缺陷修复者、外围开发者、活跃开发者、核心成员和项目领导者,同时,作者认为保持社区中这几类不同角色之间的结构平衡,对促进并维持项目的成功是非常重要的。开源社区中各种角色的参与者都在通过不同的方式,促进开源项目的发展,尤其是核心成员、活跃的开发者是开源项目的主要贡献者。

社会网络分析方法在国外比较流行,Peng Wu , SiKun Li 提出了一种专注于社交网络信息,抽象的客观的存在,社会网络信息领域的一些主要的本体领域本体模型。K Koser 总结流行的社交网络,社会网络和移动无线网络研究相互结合,提出了移动社会网络,开辟了这一新领域,分析该领域的所有利益相关者在移动社会网络中的供应链。Piotr Bródka  等人提出了研究社交网络多层研究,着重研究了跨层的聚类系数,跨层度中心和各种版本的多层度中心性的定义和分析。Zhou , Lixin 等人通过分析用户的静态属性和互动的 BBS,挖掘数据,展现出他们之间社交网络,并且在网络中找到关键的人物。

在大家普遍认为的网络理论的研究中,复杂网络是由数量非常巨大的节点和节点之间非常复杂的关系共同构成的网络结构。数量巨大的节点是指几百上千,已经无法用人工通过手工的方式来分析。要是用数学语言来描述,复杂网络将是一个足够复杂的拓扑结构特征的图。复杂网络具有简单网络所不具备的特性,而这些特性往往出现在真实世界的网络结构中。复杂网络的研究是如今科学研究中的一个重要分支,与现实中的各种各样的高度复杂的系统,例如如今炙手可热的互联网网络、尚未完全了解的神经网络和超级复杂的社会网络的研究有密切关系。

......................


第二章  开源中国子社区特征分析


2.1 开源中国网站介绍

开源中国的网址是 ,是国内最大的开源社区之一。

开源中国社区是工信部软件与集成电路促进中心创办的一家非盈利性质的公益网站,其目的在于建立一个健康有序的开源生态环境,促进中国开源软件的繁荣,推动中国的信息化进程。社区提供了论坛、协同开发、软件资源库、资源黄页等资源,它的协同开发平台支持了国内第一个开源 ERP 项目—恩信 ERP,  清华大学学位论文 LaTeX 模板等重要项目。

开源中国成立于 2008 年 8 月,是目前国内最大的开源技术社区,拥有超过 200 万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。2013 年,开源中国建立大型综合性的云开发平台-中国源,为中国广大开发者提供团队协作、源码托管、代码质量分析、代码评审、测试、代码演示平台等功能。

...................


2.2 网站社区介绍

网站有 9 个一级下拉菜单,每个下拉菜单分别是不同的社区。这 9 个下拉菜单分别是开源项目、问答、代码、博客、翻译、资讯、移动开发、招聘、城市圈。根据下拉菜单的,将其分别定义为开源中国的一级社区。

每个社区各自有不同的特点,是各自独立的,下面将逐个介绍各社区。

2.2.1 开源项目

在该一级社区的主页上,核心中部区域是最新推荐的 20 款软件,右侧上方是区域是每周的软件推荐,并附有简单的介绍及逻辑结构图,中间下方区域是每天的热门软件的 TOP20 的名字及链接,右侧中间区域最新收录的 10 款软件简介及链接。翻页后将开源软件以不同的角度进行分类,角度分别有编程语言、Web 应用开发、手机/移动开发、iOS 代码库、程序开发、开发工具、jQuery 插件、建站系统、企业应用、服务器软件、数据库相关、应用工具、插件和扩展、游戏/娱乐、管理和监控、其他开源。在不同的分类情形下,继续以不同的方式进一步分类。在一些不同角度分类,除了上面提到的进一步分类外,在该模块的上方还有用红色字体标注的热门的分类方式。例如:

“开源中国”代码分享社区的沟通网络分析

从不同的角度对已收录的软件进行分类,便于网站访问者能够快速地选取到需要的软件。当网站访问者通过分类选取到合适的软件链接,访问链接后,将看到的是软件的介绍,包含软件功能、软件界面、部分代码,适用场景等等。随后有授权协议、开发语言、操作系统、收录时间的介绍,接下来就是软件首页、软件文档、软件下载。其中软件首页和软件下载,均为链接到软件的官方网站。

......................


第三章 数据来源及数据处理 ..................... 16

3.1  数据采集工具 ............... 16

3.2  数据采集部分 ..................... 16

3.3  数据处理 ................... 23

第四章 网络分析 .......... 27

4.1  网络模型的选择 ............27

4.2  度 ........ 28

4.3 聚集系数 ........... 32


第四章  网络分析


4.1  网络模型的选择

将系统内各参与者看作节点,参与者之间的联系视作连边,可以建立一个具有特定功能的网络。从统计物理的角度来看,网络是一种包含了大量个体(可以是细胞,企业等)以及个体之间相互作用的系统,是把某种现象或某类关系抽象为个体(节点或顶点)以及个体之间相互作用(边)而形成的用来描述这一现象或关系的图。

上述的建网规则可以应用在 2010 年 10 月 14 日至 2012 年 12 月 3 日 10 时期间开源中国的代码分享社区的作者和评论者之间的沟通网络模型。以参与者作为网络的唯一节点,若两位生产者共同对某次代码分享页面做出互动,则在两位参与者者节点之间建立一条连边。当参与者 A 发一篇帖子,参与者 B 对这篇帖子进行了评论,另外一篇帖子由参与者 B 发出,参与者 A 进行了评论,这种情况有多种分析方式:

从有向和无向的角度,以无向网络方式分析,记为 A 和 B 进行了沟通,可以记为A-B;以有向网络的方式,则需要视为 2 次沟通,这 2 次沟通记为 A->B,B->A。

从加权和无权的角度,以加权网络的方式分析,记为 A 和 B 进行了 2 次沟通,以无权网络的方式分析,则只记为 A 和 B 进行了沟通。

从这 2 个维度综合分析,可以有 4 种网络模型,即有向加权网络、有向无权网络、无向无权网络、无向有权网络。

由于本文研究的对象是代码分享社区的沟通者网络,现实的沟通意义是有目的性的,也就是有向网络;由于加权网络和无权相比,只是多了沟通的次数,为了简化分析,我们采用无权网络。综合起来,我们采用的网络分析方式是有向无权的网络模型。

.......................


结论

本文在国内外文献研究的基础上,利用目前受到广泛关注的复杂网络方法,对 的“代码分享”社区参与者之间的沟通数据进行挖掘并进行整理,将整理后的数据,用有向无权网络的方式进行分析,得到的研究结论主要包括以下几个方面:

第一,开源中国是一个大平台,软件成品较多,而且比较全,基本上包括所有开源软件的链接,包含软件的主页、下载链接等,但是原创软件较少,能有原创性的社区为代码分享社区。由此看出国内开源社区有组织地进行大众生产的积极性不高,平台基础较薄弱。

第二,开源中国代码分享社区的沟通网络是一个由 9568 个节点,22475 条边的网络,其网络的主要参数为平均度为 2.349,平均聚集系数为 0.022,总共有 11457454 条最短路径,该网络是一个比较庞大的复杂网络。

第三,开源中国代码分享社区的沟通网络中存在一个局部非常活跃的网络,这个网络是由节点连出度、连入度非零的节点组成。在这个小网络中,沟通非常活跃,从度的角度看,是整个社区沟通网络的的 2.83 倍和 5.66 倍。

第四,在本沟通网络中,参与者之间的沟通非常不频繁,互动性不足。朋友之间实际沟通的次数只有最大可能沟通次数的是百分之二,足以说明网络中的沟通非常少。

第五,在本沟通网络中,沟通者数量和作用出现很大的分化,大部分人仅仅作为评论者,而少数人沟通非常频繁。近八成的参与者是以评论者身份出现在网络中。有人在网络中起着关键的中介作用,在所有网络中的关系中,经过他的节点可以占到整个沟通网络的路径的百分之六。

第六,在沟通网络结构中存在 68 个圈子。圈子即网络分析中的最大连通图,绝大部分大部分人都在最大的圈子里面,其他的圈子基本上都只有二三个人。最大的圈子里面最活跃的人,也是整个沟通网络中最活跃的人。

参考文献(略)




本文编号:43315

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/lwfw/43315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c749***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com