当前位置:主页 > 管理论文 > 移动网络论文 >

基于半监督稀疏自编码IM流量识别模型的研究与比较分析

发布时间:2024-05-08 19:09
  流量的准确识别不仅可以对互联网的运行情况产生突破性的改进,而且可以根据具体需求对用户的行为进行准确的掌控和分析,从而可以完成用户画像的构建和网站页面的个性化推荐,具有很强的市场应用价值。然而,目前市面上应用类型不仅繁多,某些应用采取加密传输例如SSL,要精准的识别各类应用流量,传统的方法是依靠特定端口、静态签名等作为特征进行识别,不仅耗时而且准确率不高。为了解决这一问题,本文采用神经网络算法模型,通过添加识别标签,对数据有效载荷进行特征提取,从而完成IM(Instant Messenger)流量识别。论文中首先介绍了流量识别的主要方法和国内外的研究现状,并分析了其存在的问题,接着,将流量识别模型中涉及的相关技术进行了依次阐述,本文构建的流量识别模型主要可以分为4大模块,在数据采集模块中首先完成了报文数据的半自动化抓取,为了克服半自动化抓取效率慢的问题,实现了对报文数据全自动化抓取,利用数据处理模块完成对数据的清洗工作,最后通过构建有效的分类模型,完成APP的识别。同时,本论文采用其他可解释性更强的、运行效率更高的ML分类算法应用在流量识别的领域内,如随机森林和XGboost,在保证模型...

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

图2-1MonkeyRunner运行截图

图2-1MonkeyRunner运行截图

图2-1MonkeyRunner运行截图PC端触发的所有动作都会以坐标的形式记录下来,获得某个应用产生的报需要大量重复当前坐标的行为即可。MonkeyRunner这个工具的主要目的不试使用即运行单元测试套件,同时,它也可以从大的层面如框架级别或者功试上作为插件运行在设....


图2-2数据流图

图2-2数据流图

图2-2数据流图crapy运行流程大概如下:擎从调度器中取出一个链接(URL)用于接下来的抓取,引擎把URL封装成一个uest)传给下载器,下载器把资源下载下来,并封装成应答包(Response),爬虫ponse,解析出实体(Item),则交给实体管道进行进一步的处理,....


图2-3七层参考模型

图2-3七层参考模型

图2-3七层参考模型如图2-3所示,报文的产生,都是层层协议封装下的已编码的字节流,本论文是的有效载荷提取特征进行应用识别,所以需要对报文数据进行解析,拨离固定头,从而提取有效载荷,以TCP协议为例,TCP(TransmissionControlProtocol)....


图2-4TCP报文格式源端口号:数据报来源主机的端口号

图2-4TCP报文格式源端口号:数据报来源主机的端口号

图2-3七层参考模型图2-3所示,报文的产生,都是层层协议封装下的已编码的字节流,本论文有效载荷提取特征进行应用识别,所以需要对报文数据进行解析,拨离固定从而提取有效载荷,以TCP协议为例,TCP(TransmissionControlProtocol)传是一种面....



本文编号:3967693

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3967693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2d1dd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com