基于空间文本信息流的分布式的发布订阅系统
发布时间:2021-01-25 03:07
随着全球定位系统的飞速发展和广泛应用,以及社交媒体技术的发展,网络同人们的日常生活息息相关,大量包含空间位置数据的社交信息被发布到网络中,并且被感兴趣的人们从社交软件上捕获,以方便日常生活。这类社交活动拥有很强烈的空间局限性和信息及时性。人们的生活空间局限在某一个区域,该区域的信息能够更加强烈的影响生活在该区域的人民。同样,信息具有时效,接受信息的及时程度影响着人们的判断,所以如果能够及时的获取重要的信息,能够很大程度的方便人们的生活。这就是本文研究的发布订阅系统,发布者将信息发布到网络中,被订阅的人及时下载,能够极大的方便人们的日常生活。传统的发布订阅系统忽略了及时性的研究,并且对空间信息的利用不够充分。本文的发布订阅系统,基于一个拓扑模型,提出了一个可以在该分布式系统上应用的即时的发布订阅的算法,随后又提出了将自组织增量学习神经网络(soinn)应用在原始算法之上的优化算法,并且提出了在分布式系统上该算法的负载均衡策略,最后,又提出了该算法的一个哈希优化策略。具体内容包括以下几个方面:(1)即时的发布订阅算法:目前的该类系统算法,多是批处理算法,本文提出了一个分布式系统上的即时的发...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
基础的发布订阅系统示意图
订阅分布
哈尔滨工业大学工程硕士学位论文-11-图2-3模拟聚类结果接下来讨论应该在算法中如何保存空间位置和属性信息。首先面对空间信息,传统的单处理中心的发布订阅系统,为了对到来的事件进行及时的聚类,多维持一个树状结构(因为大多采取一个树状结构的分类算法:kd-tree,R-tree),并且会把属性信息赋予每个节点,在进行子节点选择时同时考虑空间和属性信息,这种结构可以使得时间复杂度维持在log(n),但是随着数据量的增大,树状结构显示出几个不足之处:(1)维持一个树状结构会消耗大量的内存,而且树状结构的改变也会消耗大量资源。(2)在分布式系统中,不同的分布式节点需要统一数据,并行节点的数据在树状结构上融合,极其困难。所以本文采取网格的结构来存储空间数据,网格结构同样会消耗大量内存,但是其访问速度极快,而且网格结构下,相邻类别的合并和划分要快于树状结构,对于即时的分布式系统,速度显然至关重要。而且异步数据的融合统一在网格上要比在树结构上简单。面对事件的属性信息,数据结构有前缀树,倒排索引等。由以上分析,树结构很适合单计算中心纯内存的算法,在每个类别中,前缀树在对新增加的订阅进行分类时,具有很大的优势,可以快速的查找到该订阅应该添加的位置,同时在面对将发布的事件推送给对应的订阅时,可以在遍历树的过程中,对树的节点进行过滤,只保留在事件中出现的属性的节点,而且一般一个事件的属性个数不会太大(一般小于5),所以树的高度不会太高。但是在分布式环境中如果存在多个并行节点的合并,大型的前缀树在合并多个由于并行而不同的树时较为繁琐。倒排索引在面对新订阅分类时则结构简单,可以快速的合并数据,所以本文采取倒排索引的结构。
【参考文献】:
期刊论文
[1]自组织增量学习神经网络综述[J]. 邱天宇,申富饶,赵金熙. 软件学报. 2016(09)
本文编号:2998440
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
基础的发布订阅系统示意图
订阅分布
哈尔滨工业大学工程硕士学位论文-11-图2-3模拟聚类结果接下来讨论应该在算法中如何保存空间位置和属性信息。首先面对空间信息,传统的单处理中心的发布订阅系统,为了对到来的事件进行及时的聚类,多维持一个树状结构(因为大多采取一个树状结构的分类算法:kd-tree,R-tree),并且会把属性信息赋予每个节点,在进行子节点选择时同时考虑空间和属性信息,这种结构可以使得时间复杂度维持在log(n),但是随着数据量的增大,树状结构显示出几个不足之处:(1)维持一个树状结构会消耗大量的内存,而且树状结构的改变也会消耗大量资源。(2)在分布式系统中,不同的分布式节点需要统一数据,并行节点的数据在树状结构上融合,极其困难。所以本文采取网格的结构来存储空间数据,网格结构同样会消耗大量内存,但是其访问速度极快,而且网格结构下,相邻类别的合并和划分要快于树状结构,对于即时的分布式系统,速度显然至关重要。而且异步数据的融合统一在网格上要比在树结构上简单。面对事件的属性信息,数据结构有前缀树,倒排索引等。由以上分析,树结构很适合单计算中心纯内存的算法,在每个类别中,前缀树在对新增加的订阅进行分类时,具有很大的优势,可以快速的查找到该订阅应该添加的位置,同时在面对将发布的事件推送给对应的订阅时,可以在遍历树的过程中,对树的节点进行过滤,只保留在事件中出现的属性的节点,而且一般一个事件的属性个数不会太大(一般小于5),所以树的高度不会太高。但是在分布式环境中如果存在多个并行节点的合并,大型的前缀树在合并多个由于并行而不同的树时较为繁琐。倒排索引在面对新订阅分类时则结构简单,可以快速的合并数据,所以本文采取倒排索引的结构。
【参考文献】:
期刊论文
[1]自组织增量学习神经网络综述[J]. 邱天宇,申富饶,赵金熙. 软件学报. 2016(09)
本文编号:2998440
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2998440.html