基于活动知识图谱的跨工作流片段发现
发布时间:2023-08-26 02:11
目前,存储库上可公开访问的科学工作流大量增加,这些科学工作流是科学家用来循环执行来实现某些功能的过程,它们由活动、活动之间的功能执行关系以及子工作流组成。当科学家想要设计和开展新的实验,考虑到从头开发一个新的科学工作流实验通常是一个需要大量知识和努力的,并且容易出错的任务。因此复用和重用那些已在存储库的历史科学工作流中被证实过的、成熟的最佳实践片段,被认为是一种成本效益高而又避免错误的策略。然而,一个科学工作流实验可能与多个科学工作流部分片段相关,这种观察驱使我们提出一种技术,该技术可以发现和推荐相关的跨工作流片段以满足这样的需求。我们先前的工作已经实现了对于处在同一粒度水平的活动所组成的需求片段,如何做跨工作流片段发现和推荐的工作,但是限制在于科学工作流中除了活动之间平面化调用关系,还有子工作流和它相应活动之间的层次化父子关系。某些科学需求可以通过组合粗粒度或细粒度的片段来满足具备粒度级别的需求规格说明。为了解决这一挑战,本文提出了一个新奇的跨工作流片段发现机制,具体内容如下:1)借助历史的科学工作流数据,构建一个活动知识图谱,以此来容纳科学工作流中活动之间平面化的调用关系,以及子工...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 跨工作流片段发现
1.2.2 工作流相似度评估
1.2.3 服务(活动)发现
1.2.4 需求导向型推荐
1.3 研究主要内容
1.4 论文组织构架
2 活动知识图谱构建
2.1 科学工作流和层次化模型
2.2 活动知识图谱
2.3 本章小结
3 基于主题的活动相关性探究
3.1 活动和子工作流的短文档表示
3.2 基于BTM主题发现
3.2.1 内容数字化
3.2.2 Biterm抽取
3.2.3 BTM主题模型训练
3.3 活动和子工作流的主题推理
3.4 最优主题个数K的确定
3.4.1 困惑度
3.4.2 主题相似度
3.4.3 主题个数K的确定
3.5 代表性主题确定
3.6 本章小结
4 跨工作流片段发现
4.1 候选活动和子工作流发现
4.2 跨工作流片段发现
4.3 本章小结
5 实验设置
5.1 数据清理
5.2 实验设置
5.3 当没有变化应用到样本片段的跨工作流片段发现
5.4 当有变化应用到样本片段的跨工作流片段发现
5.5 本章小结
6 实验评估
6.1 性能度量指标
6.2 对比方法
6.3 评估结果
6.3.1 thrdept的影响
6.3.2 K2的影响
6.3.3 β的影响
6.3.4 thrdept,K2,和β的影响
6.4 本章小结
7 总结
致谢
参考文献
个人简介
论文发表情况
本文编号:3843749
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 跨工作流片段发现
1.2.2 工作流相似度评估
1.2.3 服务(活动)发现
1.2.4 需求导向型推荐
1.3 研究主要内容
1.4 论文组织构架
2 活动知识图谱构建
2.1 科学工作流和层次化模型
2.2 活动知识图谱
2.3 本章小结
3 基于主题的活动相关性探究
3.1 活动和子工作流的短文档表示
3.2 基于BTM主题发现
3.2.1 内容数字化
3.2.2 Biterm抽取
3.2.3 BTM主题模型训练
3.3 活动和子工作流的主题推理
3.4 最优主题个数K的确定
3.4.1 困惑度
3.4.2 主题相似度
3.4.3 主题个数K的确定
3.5 代表性主题确定
3.6 本章小结
4 跨工作流片段发现
4.1 候选活动和子工作流发现
4.2 跨工作流片段发现
4.3 本章小结
5 实验设置
5.1 数据清理
5.2 实验设置
5.3 当没有变化应用到样本片段的跨工作流片段发现
5.4 当有变化应用到样本片段的跨工作流片段发现
5.5 本章小结
6 实验评估
6.1 性能度量指标
6.2 对比方法
6.3 评估结果
6.3.1 thrdept的影响
6.3.2 K2的影响
6.3.3 β的影响
6.3.4 thrdept,K2,和β的影响
6.4 本章小结
7 总结
致谢
参考文献
个人简介
论文发表情况
本文编号:3843749
本文链接:https://www.wllwen.com/tushudanganlunwen/3843749.html