智能手机电子取证中文本分析的研究
本文关键词: 短文本分类 手机取证 特征权重 特征扩展 出处:《武汉邮电科学研究院》2014年硕士论文 论文类型:学位论文
【摘要】:随着移动电话的迅速普及和手机容量的增大,处理手机大批量短信数据的挑战也与日俱增。如何从手机中快速提取执法人员感兴趣的证据成为手机取证技术面临的问题之一,短文本自动分类技术可以一定程度上解决该难题。虽然传统的文本分类技术已经相对成熟,但短文本的格式不规范且文本信息稀疏,导致适用于长文本的分类方法不能直接应用于短文本领域。基于这样的背景,本文对手机取证中短文本分类方法进行相应的探索和对比。本文首先概述了手机取证的取证源、取证原则和取证过程,并以手机中短信信息为例分析手机取证系统提取电子证据的基本过程。接着重点针对手机取证系统中的短信自动分类子系统进行探讨。讨论了长文本和短文本存在的基本区别,分析传统分类方法中几种常使用的特征权值算法,并提出一种针对短文本特点的权重值改进算法。同时为了弥补短文本信息量稀少的劣势,提出引入维基百科数据库作为知识库对短文本的特征进行扩展的方法。本文最后详细介绍了短信信息分类子系统中的各个模块设计过程和实现过程,并对本文中提到的两种改进方法先后用六组试验进行分类效果对比。六组实验结果表明,基于传统分类方法上的两种改进方法均能一定程度上提高中文短文本分类的性能。同时也发现,若在建立知识库之初噪声没有被清理干净,会影响基于特征扩展的分类方法的分类效果。
[Abstract]:With the rapid popularization of mobile phones and the increase of mobile phone capacity, the challenge of dealing with mass SMS data is also increasing. How to quickly extract evidence of interest to law enforcement officials from mobile phones has become one of the problems faced by mobile phone forensics technology. Although the traditional text classification technology is relatively mature, the format of short text is not standardized and the text information is sparse. As a result, the classification method suitable for long text can not be directly applied to the field of short text. Based on this background, this paper explores and compares the classification methods of short text book in mobile phone forensics. Firstly, this paper summarizes the evidential source of mobile phone forensics. Principles and procedures for obtaining evidence, Taking short message information in mobile phone as an example, this paper analyzes the basic process of extracting electronic evidence from mobile phone forensics system. Then, it focuses on the automatic classification subsystem of short message in mobile phone forensics system, and discusses the basic differences between long text and short text. This paper analyzes several feature weight algorithms that are often used in traditional classification methods, and proposes an improved algorithm of weight value for the characteristics of short text books, in order to make up for the shortage of short text information. This paper proposes a method to extend the features of short text by using Wikipedia database as a knowledge base. Finally, the design process and implementation process of each module in the short message classification subsystem are introduced in detail. The two improved methods mentioned in this paper are compared with each other by six groups of experiments. The results of the six groups of experiments show that, The two improved methods based on the traditional classification method can improve the performance of the Chinese text classification to some extent. It is also found that the noise is not cleaned up at the beginning of building the knowledge base. It will affect the classification effect of the classification method based on feature expansion.
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN929.53;TP391.1
【相似文献】
相关期刊论文 前10条
1 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
2 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
3 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
4 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
5 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
6 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
7 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
8 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
9 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
10 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前2条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
2 山东 黄家贞;网页保存工具——网页快拷[N];电脑报;2001年
,本文编号:1507755
本文链接:https://www.wllwen.com/kejilunwen/wltx/1507755.html