基于大规模文本数据集的相似检测关键技术研究
本文选题:大数据 + 相似检测 ; 参考:《吉林大学》2016年博士论文
【摘要】:随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,数据是与自然资源、人力资源一样重要的战略资源;掌控数据资源的能力是国家数字主动权的体现。因此数据的收集、存储、处理、分析以及由此产生的信息服务正成为全球信息技术发展的主流,大数据研究和应用已成为产业升级与新产业崛起的重要推动力量。作为一种商业资本和战略资源,大数据在带给推动力的同时,也带来了挑战;如何在海量数据中探寻有价值的资源,是摆在研究者面前的首要任务。然而,海量信息中也夹杂了大量重复或相似内容,这些内容的存在,不但浪费了大量存储资源,降低网络的传输速度,也直接影响搜索引擎的整体性能,加重了用户寻找有价值资源的负担。大数据处理目标是以有效的信息技术手段和计算方法,挖掘和提取数据中的深度价值资源,为行业提供高附加值的应用和服务。因此,如何有效管理和利用海量信息,使用合适的技术,筛选掉其中无用或不相关的内容,快速高效地发掘出潜在价值的知识与信息,并进行合理分类、准确定位,是当前大数据处理中亟需解决的问题。因此,本论文针对大规模文本数据的相似检测问题,围绕数据的分类与挖掘、特征提取、相似检测、Map Reduce计算模型等相关理论和关键技术的研究,设计了以关联规则和朴素贝叶斯为基础的多重置信门限值分类分类方法;提出基于互信息的词频文本特征提取方案;构建了并行化的大规模文本相似检测平台。本研究在理论上具有创新性,实践上有可行性。具体来说,主要工作与创新体现在以下方面:1.针对相似检测的背景知识,研究针对文本分类的相关理论与技术。文本分类的任务是在给定的分类体系下,根据每类样本的数据信息,建立相应的类别判定公式和类别判定规则,并总结出分类规律。这样,当需要为待分类文本确定其类别时,根据已总结的类别判定公式和类别判定规则,就能够把待分类文本划分到相应的类别中去。分类过程包括:文本预处理、特征选择、特征加权、文本表示和分类算法等关键技术;论文在对上述过程进行深入的研究后,重点研究分类器的设计与实现、分类评价标准等;上述过程的研究,为文本相似检测奠定理论基础。2.针对相似检测过程分类精确率低等问题,结合朴素贝叶斯分类和关联规则挖掘,提出了一种具有多重门限值的分类方法。该方法应用于大规模文本数据集的分类过程,能有效地提高文档分类精确度。由于贝叶斯分类优点在于计算过程简单,但忽略了文本词组间的相互联系,所以可采用关联规则挖掘方法,为有关系的文本类设定合适置信门限值,分类器将为文档分类的执行获得较高的精确率,从而弥补了贝叶斯分类的缺点。该方法首先通过算法将预处理的文本数据库转变成关联规则,在排序规则集中,对训练数据集的分类从第一条规则开始判断,若第一条规则分类精确率比指定规则的置信门限值高,则从训练数据集中删除通过指定规则分类的数据,并且保存这一规则到规则集中去,创建关联分类器;否则,这一规则将从分类器中删除。该过程一直重复进行下去,直到所有排序的规则都被识别后,获得所有支持度大于最小支持度的关联规则。实验验证表明,该方法相比较于单独分类器的分类结果,能够获得较高的分类精确率和召回率。3.针对在相似检测过程中,提取特征向量精度低、特征子集数量大的问题,提出了基于互信息的词频文本特征提取方法。该方法以输入类别集合、各个类别中文本和每个文本词条在类别中出现次数为初始条件,首先,对输入类别的文本进行分词建立索引,然后对文本中词条循环读取,在训练集内的每个类别文本中计算特征词出现次数大于或等于某个值的文本数;接着,计算特征词相对于每个类别的特征频率和每个文本中出现的平均次数;最后,在各个类别中计算词条互信息值,将值最大的词条放入特征集合中,直到特征词个数达到阈值后,完成对文本特征的提取。通过在Sogou T语料库上测试和验证,该方法不仅能够获取较小特征子集,而且保持了较高分类精度。4.针对大规模文本数据相似检测过程中,数据量大、并行设计方法复杂且效率低的问题,提出了云平台下的大规模文本相似检测方法。该方法借鉴Sim Hash算法,使用段落加权长句的方法来获得段落指纹,然后利用Map Reduce计算模型计算相似度。具体来说,首先采用特征提取方法获得文本的段落指纹,将该指纹作为关键字排序并建立索引;其次用待检测文本的段落指纹在已有的文本库中进行索引,检索出可能重复或相似的文本;最后,根据检索的结果,与待检测文本执行相互的具体相似度计算,根据计算结果,决定待检测文本是否与已有文本近似。通过搭建Hadoop实验平台,采用三种不同规模的网页数据集来验证所设计方案的可行性,在数据集上分别执行运算时间和加速度比测试,实验数据表明,经过Map Reduce并行化设计后,相似检测的执行时间和效率得到显著的改善,特别是随着数据规模的增大和Hadoop集群中机器数量的增多,算法效率提升更明显,针对大规模数据集的相似检测优势更加突出。
[Abstract]:......
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 董璇;蔡立军;;基于不平衡类数据集分类的空间插值方法[J];计算机仿真;2012年12期
2 张诤;王惠文;;大规模复杂数据集的约简方法[J];计算机工程;2010年23期
3 ;拒绝数字化[J];每周电脑报;1999年03期
4 吕海燕;李华伟;吕红;方霞;;元数据注册系统中数据集分类在卫生信息系统中的应用[J];计算技术与自动化;2011年03期
5 顾静秋;吴华瑞;朱华吉;;数据集浓缩研究综述[J];计算机应用与软件;2012年10期
6 赵成龙;陈乐义;张冉;李红;;一种快速有效处理数据集分类问题的新算法[J];山东科技大学学报(自然科学版);2006年04期
7 张宏基;李文中;陆桑璐;;基于异步信息的匿名移动数据集的用户身份识别[J];计算机科学;2013年11期
8 李芳芳;田志军;;数据库快速查询方法研究与应用[J];微电子学与计算机;2012年03期
9 赵国强;王会进;;一种用于大规模数据集的决策树采样策略[J];微型机与应用;2010年21期
10 李浩;梅清;郑祥稳;;ADO.NET中的数据集访问技巧[J];软件导刊;2006年13期
相关会议论文 前8条
1 许晓峰;金澈清;高明;周傲英;;面向大型数据集合的关键分类查找算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 马垣;崔丽;刘鸿雁;梁材;;关系中的概念与命题[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
5 卢建松;曹庆华;傅翠娇;;探究Delphi平台下处理.NET Web Service返回数据集的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 张路;袁晓洁;刘芳;窦志成;;大规模数据集的分布式索引机制研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 于爱荣;刘晓明;曹雷;王俊;;NET Web Services数据集在Delphi中的处理与研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
8 王加阳;;动态约简抽样分析[A];2006年全国理论计算机科学学术年会论文集[C];2006年
相关重要报纸文章 前1条
1 李开鹏 温德成;SPSS:质量信息管理的助手[N];中国质量报;2005年
相关博士学位论文 前7条
1 王海涛;基于大规模文本数据集的相似检测关键技术研究[D];吉林大学;2016年
2 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
3 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
4 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
5 于澝;基于一维SOM神经网络的聚类及数据分析方法研究[D];天津大学;2009年
6 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
7 於跃成;基于半监督学习的分布式和演化聚类研究[D];南京航空航天大学;2012年
相关硕士学位论文 前10条
1 李建勋;基于模糊聚类分析的数据异常知识发现方法[D];哈尔滨工业大学;2015年
2 俞闯;半监督学习中不平衡数据集分类研究[D];大连理工大学;2015年
3 周维洁;基于智能手机的车辆弯道识别与相对定位的研究[D];黑龙江大学;2015年
4 杨宝栓;基于显露模式的早期网瘾行为检测模型的研究与实现[D];东北大学;2013年
5 孙渤禹;面向失衡数据集分类问题的研究与应用[D];哈尔滨理工大学;2014年
6 李丰;面向动态数据集重发布的隐私保护研究[D];复旦大学;2009年
7 姚冰;一种改进的非平衡数据集支持向量机分类算法[D];吉林大学;2010年
8 郝姝雯;基于支持向量机的不平衡数据集分类算法研究[D];哈尔滨工程大学;2011年
9 王喜红;基于数据集的数据交换技术研究[D];东北石油大学;2012年
10 李思本;面向失衡数据集的预测方法研究[D];哈尔滨理工大学;2015年
,本文编号:1768575
本文链接:https://www.wllwen.com/guanlilunwen/renliziyuanguanlilunwen/1768575.html