基于随机森林的IP城市级定位方法研究

发布时间:2022-02-17 12:48
  21世纪以来,互联网讯速发展,成为了人们在日常生活中必不可少的工具。随着互联网的普及,线上服务和网络通信成为一种趋势。互联网上的个性化推送服务,如定向广告投放、网页语言自动选择、当地新闻实时推送,以及网络安全问题的溯源追踪等都需要IP定位技术,即根据每个网络主机唯一的IP地址标识确定其所在的地理位置。虽然现在已经有许多优秀的IP定位技术,但或多或少都存在着一定的局限性,例如网络测量的精确度不高,变量之间的关系无法准确衡量等等。因此,本文主要提出了一种基于数据挖掘的IP城市级定位方法,该方法以IP地址本身作为特征,利用随机森林算法训练得到分类器,得到了较好的预测效果。本文对现有的经典的IP定位方法进行了研究和分析,指出它们存在的不足,提出了基于随机森林的IP城市级定位模型。首先,在模型设计中,为了获取较高精确度的IP训练集,提出对不同的源数据库进行数据融合,并设计了一个引入堆结构的数据库融合算法,该算法主要是对各个库的IP记录进行属性融合。实验中选取了两种不同的数据库组合方式,通过对比分析发现,第二组实验结果更好,具体表现在其中的省份信息能全部识别出来,城市识别率也提升了19倍。其次,本... 

【文章来源】:山西大学山西省

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于随机森林的IP城市级定位方法研究


技术路线图

原理图,原理图,算法,数据库


第二章理论基础和相关技术介绍9图2.1CBG算法原理图给定一些地理位置已知的探测点地标L{A,B,C,…},测量从多个探测点到目标IP节点X的时延向量T{T1,T2,T3…},根据时延与距离的关系可以的到距离向量D{D1,D2,D3…},以各个探测点为圆心,距离为半径作圆,重合的区域即为目标IP的区域范围。该方法通过牺牲精度来缩小目标IP所在地理位置的区域,通过给出一个区域范围,将目标IP缩小到一定的范围,有效地降低了定位的方差。但以上两种方法,也存在以下不足:由于存在时延抖动,传送路径不确定等问题,时延测量不够精准;而且定位的准确性受限于探测点的数量,探测点数量越多,定位越精准;另外,实验中需要部署多个探测点,在现实中部署难度比较大,可行性较差。2.2.2基于数据库查询的定位方法目前市面上存在的许多IP数据库,出于商业保护等原因,供应商并未向外透露数据库来源以及相关的定位技术,因而这些数据库的准确性有待考量。对此,DanKomosny[20],JiangH[21],Shavitti[10],Siwpersad[9]等学者通过数据抽样验证的方法评估数据库的准确度,综合得到如下结论:(1)IP数据库在国家级粒度的定位准确性最高,接近100%,在省级,市级,街道级上的准确度依次递减,也就是说粒度越高,定位准确度越低;(2)不同IP数据库中,定位信息相同的那部分IP地址在整个数据库中定位准确度更高,且对同一IP地址大部分IP数据库定位结果是相同的;(3)基于数据库查询的定位准确度没有基于网络测量的定位准确度高。2.2.3基于数据挖掘的定位方法基于数据挖掘比较经典的定位方法有Eriksson提出的Alearning-basedapproach

流程图,算法,流程图,贝叶斯


基于随机森林的IP城市级定位方法研究10forIPgeolocation算法(简称LBG)[16],与CBG算法等基于网络测量的算法不同,该算法是一种基于数据挖掘的IP定位模型,其用到的模型是朴素贝叶斯模型,以网络测量得到的时延和跳数作为特征,训练得到贝叶斯分类器,进而用于预测目标IP的地理位置。该方法不需要研究时延和距离之间的关系,只需要提供大量准确度较高的训练样本数据,将IP城市级定位转换为了一个基于特征聚类进行预测的机器学习问题。具体来说,LBG定位算法以大量探测源到地标的时延和跳数作为训练数据,在此基础上构建一个贝叶斯分类器,再输入目标IP的时延和跳数信息,对其地理位置进行预测。其原理如下:已知城市集合C,c是IP地址所对应的城市,其中,对目标IP测量的特征集为F={f1,f2},其中f1表示时延,f2表示跳数,若已知某个IP地址的特征集为F,则根据贝叶斯公式P(A|B)=(|)()()(2.1)该IP所在城市为c的概率为:P(c|F)=(|)()()∝(|)()(2.2)由于有大量的训练数据集,训练得到的贝叶斯分类器为:=argmax∈P(c|F)=argmax∈P(F|c)()(2.3)其中P(c)是根据人口密度计算得到,作者假设某城市的人口密度大小和目标IP出现在城市c的概率是成正比。而P(F|c)可通过训练数据统计得到。算法流程图如下所示:图2.2LBG算法流程图

【参考文献】:
期刊论文
[1]第43次CNNIC中国互联网报告发布[J].   中国广播. 2019(04)
[2]大规模认知无线电网络的时延分析[J]. 陆佃杰,郑向伟,张桂娟,洪爵,刘弘.  软件学报. 2014(10)
[3]基于决策树的数据挖掘算法的应用与研究[J]. 邹媛.  科学技术与工程. 2010(18)

硕士论文
[1]基于网络拓扑聚类的IP城市级定位算法研究[D]. 李明月.解放军信息工程大学 2017



本文编号:3629431

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3629431.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d974***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com