当前位置:主页 > 社科论文 > 军事论文 >

面向单幅不确定大图的频繁模式挖掘技术研究

发布时间:2020-05-17 15:29
【摘要】:在军事信息系统中,军事情报分析与处理分系统占据重要地位。随着各类情报获取手段的演进,军事情报数据呈现出异构性和非结构化等特点,使得军事情报分析与处理面临极大的技术挑战。海量文本情报分析是情报分析与处理中最重要和最基础的组成部分。当前,一种从整体上把握文本情报的有效手段是构建以单个文本为节点、文本之间相互关系为联系的文档网络图,即单幅大图(网络)数据,并在此基础上开展一系列分析研判。本文以文本情报分析为应用背景研究单幅大图(网络)上的数据挖掘问题。由于噪声、测量误差、保密性、不完整性等原因,不确定性在现实世界的数据中广泛存在。作为一种具有广泛建模能力的数据模型,图数据中也存在着不确定性。除了前述的文档网络图,生物信息学、社会网络等领域中亦大量存在着不确定图。因此,针对不确定图的研究成为国内外的热点。本文使用不确定图建模文本军事情报,并在此基础上挖掘频繁模式;目前在单幅不确定大图上频繁子图挖掘的问题尚未见已公开的研究。首先,对单幅不确定大图上子图模式的支持度进行了定义,据此提出了基于枚举-评估的支持度评估方法。枚举策略采用与确定图挖掘时相同的方式,本文主要关注支持度评估过程。其次,通过证明在单幅不确定图上期望支持度的计算是#-P难的,设计了一种具有精度保证的近似算法以满足实际应用需求。然后,为进一步增强算法效率,提出了两种优化策略,一是考虑对样本图计算结果的重用,二是引入检查点机制和基于结构的上界,提前对不频繁的分枝进行剪枝。上述两种优化策略的应用提升了挖掘性能。最后,在实际数据集上进行的实验验证了该挖掘方法及优化策略的实际可用性和有效性。为了进一步评价所提技术的实际效用和意义,在真实文本情报数据上开展了应用研究。对于采集的公开文本情报数据,以文档为节点、文档间相似度为边建立文档关联。使用LDA模型为节点附加标签,使用基于知识库的算法衡量节点间相似度;当相似度大于给定阈值时,则连接一条边,并以相似度值作为边上的概率。最终建立文档网络图,并用所提技术对其进行挖掘。实验结果表明,发现的模式具有可解释性,所提挖掘技术具有较好的实际应用前景。
【图文】:

优化技术,运行时间


国防科学技术大学研究生院硕士学位论文5.3 评价优化技术本节实验评价在近似框架下,所提优化技术的效果。特别地,,我们比较了三个算法,为了表达清晰,分别表示为基本,+重用,+剪枝。基本:基本的基于蒙特卡洛仿真,挖掘单个不确定图的近似算法,即在 3.3 节中提出的算法 1;+重用:在基本上应用计算重用技术,即 4.1 节所提,重用三种开销;+剪枝:进一步引入在 4.2 节提出的,基于检查点机制的剪枝技术,在+重用的基础上,+剪枝包含所有提出的优化策略。

优化技术,样本量


(a)CIT 数据集 (b)COL 数据集图 5-3 优化技术样本量对比进一步鉴别剪枝技术,我们研究总的样本量。图 5-3(a)和(b)描绘了在 CIT 和COL 上需要的总的样本数量。重点需要观察的是剪枝策略使得提前结束成为可能,使得需要更少的样本。既然+重用并不考虑剪枝,那么其需要的样本数量和基本是一样的,因此我们忽略对其进行比较。两个图都反映了剪枝规则很有效,减少了约1 1~4 3的样本量。最终使得运行速度加快。总的来讲,+重用相比基本体现了优越性,而+剪枝比+重用更好。因此+剪枝作为最终的算法 fanta。接下来,我们评价参数值变化对于 fanta 不确定性,及可扩展性的影响。5.4 评价参数的影响除了 ,用户定义的参数 与 也会影响算法性能。在本组实验中,我们衡量 与 的变化对算法效率的影响程度,其中 fanta 与基本进行了比较与分析。我们
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:E11;TP391.1

【相似文献】

相关期刊论文 前10条

1 陈凤娟;;概率代表频繁模式挖掘[J];牡丹江师范学院学报(自然科学版);2017年02期

2 陈凤娟;;不确定数据的频繁模式挖掘[J];白城师范学院学报;2016年05期

3 石杰;;一种快速频繁模式挖掘算法[J];烟台大学学报(自然科学与工程版);2015年02期

4 张艳芳;过仕明;;基于分类频繁模式挖掘的书目推荐策略与算法[J];情报科学;2012年12期

5 张广路;雷景生;;界标窗口数据流频繁模式挖掘特性[J];计算机工程与应用;2011年10期

6 潘怡;杜红燕;;概念格在频繁模式挖掘中的应用研究[J];湖南科技大学学报(自然科学版);2010年02期

7 李群;;数据流的频繁模式挖掘算法浅析[J];电脑知识与技术;2008年S2期

8 战立强;刘大昕;;小波滤波在时间序列频繁模式挖掘中的应用[J];哈尔滨工程大学学报;2008年01期

9 敖富江;颜跃进;黄健;黄柯棣;;数据流频繁模式挖掘算法设计[J];计算机科学;2008年03期

10 马连灯;王占刚;;基于滑动窗口模型的数据流加权频繁模式挖掘算法[J];软件工程;2016年10期

相关会议论文 前10条

1 侯俊杰;李春平;;一种基于内存索引的频繁模式挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

2 袁晴晴;楼宇波;周皓峰;汪卫;施伯乐;;基于图论的频繁模式挖掘[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 林景亮;董槐林;姜青山;吴书;;一种基于新增阈值的频繁模式挖掘算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

4 孟军;姜军晓;刘秋水;;基于滑动窗口的流数据频繁模式挖掘算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王闻;谢伙生;;基于FP树和对称矩阵的最大频繁模式挖掘算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

6 韩蒙;张炜;李建中;;RAKING:一种高效的不确定图K-极大频繁模式挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

7 马秀莉;刘健;童云海;唐世渭;杨冬青;;基于模式索引树的增量挖掘[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

8 曾涛;向勇;包小源;刘胤田;蒋永光;;中医古方挖掘:一种频繁药组发现与功效标注算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

9 高晶;李建中;张兆功;;挖掘数值型数据流中的最大频繁模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

10 邱勇;兰永杰;刘晓华;;高效FP-TREE创建算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

相关重要报纸文章 前1条

1 本报记者 姚琳;科学与追求相伴[N];广西日报;2011年

相关博士学位论文 前10条

1 阮幼林;频繁模式挖掘算法及在入侵检测中的应用研究[D];华中科技大学;2004年

2 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年

3 战立强;频繁模式挖掘算法研究[D];哈尔滨工程大学;2007年

4 贝毅君;XML数据频繁模式挖掘技术研究[D];浙江大学;2008年

5 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年

6 徐玉生;频繁模式挖掘算法与剪枝策略研究[D];兰州大学;2008年

7 刘勇;频繁模式挖掘相关技术研究[D];复旦大学;2007年

8 王倩;基于位值压缩存储的频繁模式挖掘方法及应用研究[D];燕山大学;2016年

9 于晓梅;面向不确定数据的频繁模式挖掘方法研究[D];山东师范大学;2016年

10 杨厚群;半结构化数据频繁模式挖掘相关技术研究[D];重庆大学;2010年

相关硕士学位论文 前10条

1 陈一帆;面向单幅不确定大图的频繁模式挖掘技术研究[D];国防科学技术大学;2015年

2 付夕;大规模数据流的频繁模式挖掘方法的研究[D];中国科学技术大学;2018年

3 李杰;基于并行频繁模式挖掘算法的博客推荐系统的设计与实现[D];内蒙古大学;2018年

4 袁二毛;生物序列近似频繁模式挖掘研究[D];合肥工业大学;2017年

5 高璐宇;基于频繁模式挖掘算法的业务量预测研究[D];北京邮电大学;2018年

6 郑邦祺;基于时间序列的频繁模式挖掘研究与应用[D];电子科技大学;2016年

7 刘金凤;频繁模式挖掘技术的研究及其在实时信号处理中的应用[D];电子科技大学;2016年

8 李寒;基于手机上下文的用户频繁模式挖掘技术研究[D];国防科学技术大学;2015年

9 王阳;频繁模式挖掘技术及其在电信收入保障系统中的应用研究[D];湖南大学;2010年

10 杜丛强;不确定数据流中频繁模式挖掘算法的研究[D];山东师范大学;2016年



本文编号:2668776

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/renwuzj/2668776.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户646bb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com