P2P内容监管中的关键技术研究
发布时间:2018-11-15 20:22
【摘要】:近年来,以P2P文件共享类应用和P2P流媒体类应用为代表的P2P网络应用迅速发展,然而与此同时,一些违规的网络资源也借助P2P类网络应用快速传播,并引发了诸多网络和社会问题。如何对P2P内容和信息进行有效监管已经成为目前P2P研究领域中一个亟待解决的关键问题。 P2P内容监管行为包括三个关键步骤,即资源和节点信息的采集,管理目标的选择以及对违规资源传播的控制。资源和节点信息的采集是指依据监管目标,对目标P2P系统中的资源及其发布信息和节点信息等数据进行采集,当前采用的主动实现方式之一是爬虫。管理目标的选择过程是指根据内容管理的目标和范围,在资源和节点信息采集的基础上,分辨正常资源和违规资源的过程。违规资源传播控制是指通过技术和非技术手段,实现对选择的目标资源的传播进行管理的行为,当前的主要管理策略集中在降低索引准确性上,并通过爬虫系统在待管理P2P系统中发布错误的索引信息的方式实现。然而现有技术还存在以下问题:1)随着P2P技术的发展,一些原有的数据采集技术已经不能完成数据采集的任务,比如传统的基于端口的管理方法等;此外,在对基于如DHT等新型体系结构的P2P系统进行数据采集时,现有的采集策略中存在较明显缺陷,比如全面性不佳和效率低下等问题;2)仅依靠资源的发布信息作为判断资源是否违规的依据,忽略了资源的真实可用性和不同资源间关注程度的差异对监管效果带来的影响;3)目前的通过降低索引准确性的资源传播控制策略效果较差,多数伪造条目可以通过内容特征和节点特征进行判断。 针对上述问题,本文通过分析P2P系统中资源的分布特征以及内容监管技术的研究现状,重点研究P2P资源发布信息的采集策略、资源可用性判别方法和内容传播、控制的原理和机制,论文的主要研究结果如下: 第一,针对使用映射类型索引的P2P文件共享应用中的资源发布信息的采集,本文提出一种基于名称间家族相似性的名称采集策略。利用名称间部分相似的组织方式,通过使用已知名称中的未知部分作为下次迭代初始条件,,以及控制预先设定的搜索词向量,该采集策略能够在很大程度上完成目标系统中的资源发布信息的快照。实验在一基于DHT体系结构的实际P2P系统中,以一搜索词为初始向量,搜索得到约1000万个发布信息,间接验证了该策略的可行性。 第二,针对目前P2P内容监管过程中,仅通过名称判断内容情况的局限性,本文提出一种基于统计推断的内容可用性判别方式,用以通过样本的可用性情况分析整体的可用性水平。区别于传统通过比较内容与其发布名称是否相符,本文用与一个内容关联的不同含义的名称数量作为衡量其可用性水平的指标,显然关联名称数量越多,内容的可用性越差。进而使用统计推断方法判断该类内容总体的可用性水平。相比于传统的通过名称判断资源实际内容的做法,本文提出的内容可用性的判定方式,1)能够有效减少监管系统中错误目标的数量,2)能够在此基础上,实现在名称和可用性维度上的基于学习算法的监管目标选择。 第三,针对目前违规资源传播管理策略的局限性,即仅通过改变可用内容占一次搜索中全部内容比例的局限性,本文基于信息论,将一次内容搜索过程描述成内容经过其发布信息,从信源向信宿传播的信道,并基于此信道模型给出了两种管理策略:1)即通过目前的添加版本和副本的策略,改变信源概率分布;2)通过改变内容和节点特征等信道特征,来影响正常用户在判断搜索内容是否可用时的决策。二者都以减小平均互信息量为最终目标,进而达到减小内容成功传播概率的目的。最后,实验在一个实际P2P系统中通过多元线性规划和方差分析等统计方法分析了影响用户决策过程的关键因素。通过该基于信息理论的分析,一方面为内容传播控制找到了理论依据,另一方面也扩展了现有的仅针对信源的管理策略。
[Abstract]:......
【学位授予单位】:北京工业大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP393.02
本文编号:2334350
[Abstract]:......
【学位授予单位】:北京工业大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP393.02
【参考文献】
相关期刊论文 前7条
1 范国兵;;一种估计Logistic模型参数的方法及应用实例[J];经济数学;2010年01期
2 孙知信;宫婧;;一种基于流特性描述的P2P流量模糊识别方法[J];计算机学报;2008年07期
3 黄道颖;张安琳;黄建华;李建春;;P2P网络Gnutella 0.6模型研究[J];计算机应用与软件;2008年06期
4 刘祥涛;龚才春;刘悦;白硕;;Kad网络节点资源探测分析[J];中文信息学报;2010年06期
5 王凯东;建设具有中国特色的社会主义网络文化[J];西安电子科技大学学报(社会科学版);2000年04期
6 尚新,李刚;范畴化理论的误区:家族相似性[J];徐州师范大学学报;2004年06期
7 李海芬,茆诗松;Pareto分布的检验[J];徐州师范大学学报(自然科学版);2004年03期
相关博士学位论文 前2条
1 张立;网络舆论传播中若干算法的研究[D];北京交通大学;2009年
2 赵旭;广义Pareto分布的统计推断[D];北京工业大学;2012年
本文编号:2334350
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2334350.html