面向生物领域的复杂网络社团检测和关键结点识别研究
发布时间:2020-08-16 21:27
【摘要】:近年来,国际上关于生物领域研究团队发展趋势研究的文献大量涌现,涉及内容及研究热点非常广泛并且呈现出了多种学科相结合的新态势,这也对其研究提出了更高的要求。基于以上背景,本课题运用复杂网络社团检测的方法,在对生物领域文献数据构建异质网络的基础上,对研究者互合著、研究机构的社团结构和关键结点进行了分析。具体工作如下:第一,基于生物领域文献数据构建了“论文-研究者-团队”的多层异质复杂网络,形式化描述了论文层、研究者层以及团队层的网络结构,介绍定义了网络统计特性指标,并对研究者网络及研究团队网络的网络统计特性进行了分析。第二,提出了一个动态网络社团检测的PPNMF算法,运用该算法对构建的多层异质复杂网络进行了社团检测。接着介绍了结点重要性评估指标c-index的形式化定义,对检测得到的社团中的重要性结点进行了识别和分析。运用可视化工具呈现出社团检测结果,标注出每个社团中的关键性结点以及这些结点之间的联系。本课题基于生物领域文献数据完成了多层异质复杂网络的构建,提出了动态网络的社团检测方法。并且分析了研究者网络和研究者团队网络的统计特性,对这两个网络进行了社团检测,识别出社团中的关键性的研究者以及研究者团队,以及分析了这些关键性结点之间的关系。最后通过可视化工具,将复杂网络社团检测及关键性结点识别的结果呈现出来。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5
【图文】:
图 3-1 生物研究总数据集脉络3.1.2生物领域研究者和研究团队数据集构建生物领域研究者和研究团队数据集,首先要获取生物领域已发表的相文献数据,进而从论文数据中提取出研究者和研究团队的数据。为构建生物领多层异质复杂网络,本文从 PudMed 数据库中,对生物领域影响因子大于 20top 期刊论文进行了数据爬取,其数据字段包括:论文 ID 号、论文题目、论文究者、论文所属单位、单位位置、关键词、摘要、期卷号、发表期刊或会议、表时间、参考文献、被引用量、被引论文信息(研究者、单位、关键词、摘要发表时间、发表期刊)。其基本数据集信息见表 3-1。爬取的论文数据可直接建论文层网络,其中以论文作为结点,以论文间的引用关系作为边。抽取论文据中的研究者信息,构建研究者层网络,以研究作为结点者,研究者之间的合关系作为边,以同样的方法抽取研究团队信息,以研究团队作为结点,团队间
图 3-2 研究者层网络度分布里,构建研究者层网络时运用的是有向网络类型,但根据研究知,两个研究者结点之间有边代表的是两人共同合著一篇文章从结点 a 到结点 b 的边,必然存在一条从 b 到 a 的边。从研究图中也可以得到,结点出度和入度分布相差不大,也是与网络相符。从总度分布图来看,度数较低的结点较多,而度数较高结点的度大致呈幂律分布,计算后得到网络的平均度为 102.0般性规律。对已构建研究团队层网络进行分析,得到研究团队互引合作网-3 所示。这里构建的研究团队层网络采用的是有向网络类型,和研究者合著关系可以得知,两个研究团队之间如果存在一条 的边,代表的是团队 a 中的研究者引用了团队 b 的为文章,或者与团队b中的研究者有所合作。计算得到研究团队的平均度为队层网络度分布可以看出,出度、入度、总度的分布都是呈现幂
20图 3-3 研究团队互引合作网络度分布2最短路径长度、半径及介数本节主要对生物领域异质复杂网络的平均路径长度、半径、特征向量中络特性进行了分析。首先本文分析了研究者层网络的连通分支大小的分布,如图 3-4(a)所示算,得到研究者层网络的若连通分支大小数量为 581,强连通分支大小033,从图 3-4 (a)中也可以看出,网络中是存在 200 个左右的独立结点他结点相连通的,即网络中的孤立点,大部分连通子图的结点数量在间,也就是我们平时说的小团体。
本文编号:2794971
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5
【图文】:
图 3-1 生物研究总数据集脉络3.1.2生物领域研究者和研究团队数据集构建生物领域研究者和研究团队数据集,首先要获取生物领域已发表的相文献数据,进而从论文数据中提取出研究者和研究团队的数据。为构建生物领多层异质复杂网络,本文从 PudMed 数据库中,对生物领域影响因子大于 20top 期刊论文进行了数据爬取,其数据字段包括:论文 ID 号、论文题目、论文究者、论文所属单位、单位位置、关键词、摘要、期卷号、发表期刊或会议、表时间、参考文献、被引用量、被引论文信息(研究者、单位、关键词、摘要发表时间、发表期刊)。其基本数据集信息见表 3-1。爬取的论文数据可直接建论文层网络,其中以论文作为结点,以论文间的引用关系作为边。抽取论文据中的研究者信息,构建研究者层网络,以研究作为结点者,研究者之间的合关系作为边,以同样的方法抽取研究团队信息,以研究团队作为结点,团队间
图 3-2 研究者层网络度分布里,构建研究者层网络时运用的是有向网络类型,但根据研究知,两个研究者结点之间有边代表的是两人共同合著一篇文章从结点 a 到结点 b 的边,必然存在一条从 b 到 a 的边。从研究图中也可以得到,结点出度和入度分布相差不大,也是与网络相符。从总度分布图来看,度数较低的结点较多,而度数较高结点的度大致呈幂律分布,计算后得到网络的平均度为 102.0般性规律。对已构建研究团队层网络进行分析,得到研究团队互引合作网-3 所示。这里构建的研究团队层网络采用的是有向网络类型,和研究者合著关系可以得知,两个研究团队之间如果存在一条 的边,代表的是团队 a 中的研究者引用了团队 b 的为文章,或者与团队b中的研究者有所合作。计算得到研究团队的平均度为队层网络度分布可以看出,出度、入度、总度的分布都是呈现幂
20图 3-3 研究团队互引合作网络度分布2最短路径长度、半径及介数本节主要对生物领域异质复杂网络的平均路径长度、半径、特征向量中络特性进行了分析。首先本文分析了研究者层网络的连通分支大小的分布,如图 3-4(a)所示算,得到研究者层网络的若连通分支大小数量为 581,强连通分支大小033,从图 3-4 (a)中也可以看出,网络中是存在 200 个左右的独立结点他结点相连通的,即网络中的孤立点,大部分连通子图的结点数量在间,也就是我们平时说的小团体。
【参考文献】
相关期刊论文 前5条
1 初大智;罗耒;;中国生物技术研究的区域发展与区际合作研究[J];科技与经济;2015年04期
2 邱桃荣;黄瑶;刘璐;余宇婷;;社团挖掘的粒计算方法研究[J];南昌工程学院学报;2015年04期
3 赵晓宇;盛立;刁天喜;;埃博拉病毒研究文献计量与可视化分析[J];军事医学;2014年09期
4 王伟;吴信岚;;基于Web of Science的我国生物技术文献的计量研究[J];现代情报;2011年11期
5 王宁;盛立;;生物安全相关文献知识图谱分析[J];军事医学科学院院刊;2010年04期
本文编号:2794971
本文链接:https://www.wllwen.com/kejilunwen/yysx/2794971.html