面向时空数据的重点人员分类模型的设计与实现
发布时间:2020-10-20 19:52
利用时空数据对犯罪现状进行分析和对犯罪趋势进行预测,在公安部门对于犯罪分子等重点人员的排查工作中一直占有重要地位。随着信息化的发展,通过移动终端、监控设备等传感器,采集人们的移动时空数据,从中分析辨别犯罪分子等重点人员,成为近年来公安部门关注的热点。随着采集数据的爆炸式增长,传统的使用GIS进行排查的方式已捉襟见肘。本文根据某市公安部门采集到的移动终端联网时空数据,以及公安部门提供的重点人员移动终端MAC地址,设计并实现了一个重点人员分类模型。本文的主要工作如下:1.对原始采集数据进行多种形式的清洗,提取本文关注的时空数据字段。2.原始数据特征维度很高,为了对原始数据进行特征降维,本文从不同的角度提出了 TSG和STPS两种时空特征提取算法。其中TSG算法对时间和空间进行统一划分,将时空信息划分后的统计数据作为特征;STPS算法从上班族工作日作息时间的角度出发,将时空占比信息和日常活动相似度作为特征。这两种算法都大大减少了原始数据集的特征维度,同时,弥补了数据采集过程中某些AP设备重复采集和漏采的缺陷。3.通过两阶段集成学习,持续改进本文分类模型的性能。第一个阶段中,首先根据本文关注的分类模型性能指标,确定适合TSG和STPS算法生成的训练集的分类算法,然后使用集成学习方法中的Bagging算法,对分类模型进行集成学习,得到更高性能的分类器。第二个阶段,使用广义上的集成学习方法,将TSG分类模型和STPS分类模型按照指定的规则组合,进一步提高分类器的性能。实验结果表明本文实现的重点人员分类模型在公安部门识别重点人员工作中的有效性。本文的分类模型已经在某市公安部门的人员分析系统中得到应用。
【学位单位】:浙江大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;D631.1
【部分图文】:
能够表达更多的信息,进而增加样本的多样性,但是并非特征越多越好,对于某??个分类器而言,当特征数量超过一个临界值时,分类器的性能将受到重要影响,??该情况可以用图2.1[24]表示。??〇?i???)?* ̄*?*?I?'?'?^?r?.?_r?..1?*?1?r—t?|??q???Dimens3〇:n?l:siy?{number?of?features)??OptimaS?number?of?features??图2.1维度灾难??为了得到尽量高性能的分类器,需要选择合适的特征维度,但是由于数据集??的内容和各个分类器的实现方法不同,并没有一个统一的标准来确定特征的数??量,但根据图2.1可以看到,过多的特征对于分类模型的训练是不利的,因此对??于明显高维的数据,需要使用某些方法进行特征降维。??所谓特征降维,是指从一个高维的特征集合得到一个低维特征集合的过程,??大量研宄表明,特征降维可以消除特征集合中冗余和无关的特征,提高机器学习??7??
习)和weaklyleamable?(弱可学习)概念。随后,SchapireRE[41kiE明了将多个弱??学习器集成可以得到一个强学习器。集成学习的基本思想是使用多个基分类器组??合成一个分类器,如图2.2所不。??〔Classifier?〕??/tv??〔Classifier」〕?〔Classifier_N〕??图2.2集成学习的基本思想??集成学习是机器学习中的重要方法,它对分类器泛化能力的提升和预测精度??的提高具有重要作用[32]。集成学习可以分为狭义和广义两种[42]。狭义的集成学习??是指对于同一个问题,从训练集中随机选取多个子集,使用相同的分类算法进行??学习,以提高分类器的泛化能力。而广义的集成学习是指使用多个学习机共同解??决同一个问题。??集成学习主要包括3个步骤:生成训练子集,训练基分类器,集成生成结果。??集成学习方法中有代表性的是Bagging[434P?Boosting,它们也是最常用的方法[44]。??2.3.1?Bagging??Bagging是由Leo?Breiman在1994年提出的集成学习方法,其全称是bootstrap??aggregating,其中bootstrap称为自助法,米用有放回的随机取样方法生成训练子??集
本文研宄的数据主要来源于某市公安部门部署的数据采集接收系统。该系统??接收来自前端设备、WIFI厂商后台、WIFI嗅探后台、IDC?(互联网数据中心)、??网站、网吧和其他渠道的采集数据,如图3.1所示。??数据釆集接收系统??I?i??前端设备?WIFI?IDC?其他??嗅探后台??資)0泰??WIFT?网站?网11巴??厂商后台??图3.1数据采集接收系统??图3.1中的前端设备、WIFI厂商后台、WffI嗅探后台等数据采集设备称为??15??
【参考文献】
本文编号:2849089
【学位单位】:浙江大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;D631.1
【部分图文】:
能够表达更多的信息,进而增加样本的多样性,但是并非特征越多越好,对于某??个分类器而言,当特征数量超过一个临界值时,分类器的性能将受到重要影响,??该情况可以用图2.1[24]表示。??〇?i???)?* ̄*?*?I?'?'?^?r?.?_r?..1?*?1?r—t?|??q???Dimens3〇:n?l:siy?{number?of?features)??OptimaS?number?of?features??图2.1维度灾难??为了得到尽量高性能的分类器,需要选择合适的特征维度,但是由于数据集??的内容和各个分类器的实现方法不同,并没有一个统一的标准来确定特征的数??量,但根据图2.1可以看到,过多的特征对于分类模型的训练是不利的,因此对??于明显高维的数据,需要使用某些方法进行特征降维。??所谓特征降维,是指从一个高维的特征集合得到一个低维特征集合的过程,??大量研宄表明,特征降维可以消除特征集合中冗余和无关的特征,提高机器学习??7??
习)和weaklyleamable?(弱可学习)概念。随后,SchapireRE[41kiE明了将多个弱??学习器集成可以得到一个强学习器。集成学习的基本思想是使用多个基分类器组??合成一个分类器,如图2.2所不。??〔Classifier?〕??/tv??〔Classifier」〕?〔Classifier_N〕??图2.2集成学习的基本思想??集成学习是机器学习中的重要方法,它对分类器泛化能力的提升和预测精度??的提高具有重要作用[32]。集成学习可以分为狭义和广义两种[42]。狭义的集成学习??是指对于同一个问题,从训练集中随机选取多个子集,使用相同的分类算法进行??学习,以提高分类器的泛化能力。而广义的集成学习是指使用多个学习机共同解??决同一个问题。??集成学习主要包括3个步骤:生成训练子集,训练基分类器,集成生成结果。??集成学习方法中有代表性的是Bagging[434P?Boosting,它们也是最常用的方法[44]。??2.3.1?Bagging??Bagging是由Leo?Breiman在1994年提出的集成学习方法,其全称是bootstrap??aggregating,其中bootstrap称为自助法,米用有放回的随机取样方法生成训练子??集
本文研宄的数据主要来源于某市公安部门部署的数据采集接收系统。该系统??接收来自前端设备、WIFI厂商后台、WIFI嗅探后台、IDC?(互联网数据中心)、??网站、网吧和其他渠道的采集数据,如图3.1所示。??数据釆集接收系统??I?i??前端设备?WIFI?IDC?其他??嗅探后台??資)0泰??WIFT?网站?网11巴??厂商后台??图3.1数据采集接收系统??图3.1中的前端设备、WIFI厂商后台、WffI嗅探后台等数据采集设备称为??15??
【参考文献】
相关期刊论文 前4条
1 赵建军;陈滨;杨利斌;姚跃亭;;一种基于字符串模型的轨迹相似度计算[J];科学技术与工程;2013年01期
2 张培晶;谢晓专;宋蕾;;PGIS在犯罪分析中的应用[J];中国人民公安大学学报(自然科学版);2012年04期
3 冀素琴;石洪波;卫洁;;基于Map Reduce的Bagging贝叶斯文本分类[J];计算机工程;2012年16期
4 耿莎莎;张旺锋;刘勇;李甜甜;马彦强;;基于GIS的城市犯罪行为空间分布特征及预警分析[J];地理科学进展;2011年10期
相关硕士学位论文 前1条
1 宫文娟;无线网络中的轨迹模式变化分析及其应用[D];上海交通大学;2014年
本文编号:2849089
本文链接:https://www.wllwen.com/shekelunwen/gongan/2849089.html