基于旅客-航班异构网络的旅客同行子图抽取
发布时间:2022-01-01 05:55
民航旅客同行子图抽取旨在从旅客-航班异构网络中抽取具有最紧密同行关系的旅客,并将这些旅客划分到同一子图中,使得子图内部连接紧凑,子图间连接稀疏。民航旅客子图抽取一方面可帮助航空公司实施旅客个性化服务,提高旅客服务质量,在行业竞争时获得旅客数量的优势,另外一方面可帮助机场对危险旅客及其同行旅客进行监控,保证民航安全运行。由于旅客总体出行记录数量庞大但个体出行记录稀疏,旅客-航班异构网络呈现高度稀疏,而现有子图抽取方法难以应用于稀疏的旅客-航班异构网络。针对上述问题,该文开展基于旅客-航班异构网络的子图抽取研究,主要从以下两个方面开展研究,并在旅客订票记录中开展验证性实验。该文主要工作如下:针对旅客-航班异构网络的高度稀疏性,提出了基于旅客-航班异构网络随机游走的旅客同行子图抽取方法。该方法首先根据旅客订票记录构建旅客-航班异构网络,然后通过随机游走以更新网络中节点间关系,最后基于完全子图的标签传播方法进行旅客同行子图的抽取。在民航旅客订票记录数据集上的实验结果表明,该方法相较于扩展的标签传播方法、基于标签传播的重叠子图发现算法、派系过滤等基准算法,具有更高的模块度、标准化互信息和子图抽取...
【文章来源】:中国民航大学天津市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
014-2018年民航旅客总周转量在出行的时候,人们往往会和自己熟悉的人一起订票出行,例如家人和朋友
中国民航大学硕士学位论文23标签传播算法如表3.3所示:表3.3以标签传播方法进行子图抽取输入:初始化后的旅客同行网络M,迭代次数T,后处理阈值r输出:节点标签列表ilist(1)同步更新,根据邻居节点标签信息对目标节点更新;(2)如果目标节点邻居节点出现最多的标签唯一,修改目标节点的标签;否则根据旅客同行网络中旅客-旅客的权值,选择权值最高的旅客节点的标签作为目标节点的标签;(3)重复上述步骤(1)-(2),直到达到迭代次数或标签稳定;(4)记录每次目标节点的标签,在迭代结束后,计算互异标签出现的概率;(5)根据节点互异标签的概率和后处理阈值,选择最终作为目标节点的标签,并删除其余标签。标签传播进行子图抽取算法示例如图3-4所示。图3-4标签传播进行子图抽取算法示例
中国民航大学硕士学位论文28进行性能比较具有较强的不确定性。为了减少随机影响,算法在相同参数下运行多次,取多次性能的平均值。与基准算法对比的实验结果如表3.7所示。本章在模块度标准化互信息和子图抽取准确度方面均有提升。表3.7子图抽取性能比较算法迭代次数T/次模块度标准化互信息子图抽取准确度SLPA200.4390.4620.517COPRA200.4310.4680.472CPM200.4090.4720.583本章算法200.4420.4910.6253.6.7实验分析由表3.7可以看出,本章算法在模块度、标准化互信息子图抽取准确度三个指标上,相比于其他算法具有更好效果,说明本文算法的有效性。随机游走次数n控制旅客节点之间的相似度,在n值增大的情况下,会导致节点间的相似度增大,旅客节点之间具有关联的边也会增多,因此,本实验需要探究随机游走次数n的值如何反应节点间的相似度。在随机游走次数n=1时,由于旅客节点间的联系较为稀疏,因此NMI、旅客同行准确度的值较低,随着随机游走次数的增多,旅客节点间同行关系也被挖掘出来,因此在n增大时,子图抽取算法的NMI增加。而在n≥4时,出现了过拟合现象,导致子图抽取算法准确度下降。如图3-5所示,其中横坐标为随机游走迭代次数,纵坐标为子图抽取的标准化互信息(NMI)。图3-6为在不同随机游走次数下旅客同行子图抽取准确度。图3-5随机游走次数敏感性分析
本文编号:3561753
【文章来源】:中国民航大学天津市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
014-2018年民航旅客总周转量在出行的时候,人们往往会和自己熟悉的人一起订票出行,例如家人和朋友
中国民航大学硕士学位论文23标签传播算法如表3.3所示:表3.3以标签传播方法进行子图抽取输入:初始化后的旅客同行网络M,迭代次数T,后处理阈值r输出:节点标签列表ilist(1)同步更新,根据邻居节点标签信息对目标节点更新;(2)如果目标节点邻居节点出现最多的标签唯一,修改目标节点的标签;否则根据旅客同行网络中旅客-旅客的权值,选择权值最高的旅客节点的标签作为目标节点的标签;(3)重复上述步骤(1)-(2),直到达到迭代次数或标签稳定;(4)记录每次目标节点的标签,在迭代结束后,计算互异标签出现的概率;(5)根据节点互异标签的概率和后处理阈值,选择最终作为目标节点的标签,并删除其余标签。标签传播进行子图抽取算法示例如图3-4所示。图3-4标签传播进行子图抽取算法示例
中国民航大学硕士学位论文28进行性能比较具有较强的不确定性。为了减少随机影响,算法在相同参数下运行多次,取多次性能的平均值。与基准算法对比的实验结果如表3.7所示。本章在模块度标准化互信息和子图抽取准确度方面均有提升。表3.7子图抽取性能比较算法迭代次数T/次模块度标准化互信息子图抽取准确度SLPA200.4390.4620.517COPRA200.4310.4680.472CPM200.4090.4720.583本章算法200.4420.4910.6253.6.7实验分析由表3.7可以看出,本章算法在模块度、标准化互信息子图抽取准确度三个指标上,相比于其他算法具有更好效果,说明本文算法的有效性。随机游走次数n控制旅客节点之间的相似度,在n值增大的情况下,会导致节点间的相似度增大,旅客节点之间具有关联的边也会增多,因此,本实验需要探究随机游走次数n的值如何反应节点间的相似度。在随机游走次数n=1时,由于旅客节点间的联系较为稀疏,因此NMI、旅客同行准确度的值较低,随着随机游走次数的增多,旅客节点间同行关系也被挖掘出来,因此在n增大时,子图抽取算法的NMI增加。而在n≥4时,出现了过拟合现象,导致子图抽取算法准确度下降。如图3-5所示,其中横坐标为随机游走迭代次数,纵坐标为子图抽取的标准化互信息(NMI)。图3-6为在不同随机游走次数下旅客同行子图抽取准确度。图3-5随机游走次数敏感性分析
本文编号:3561753
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3561753.html