当前位置:主页 > 管理论文 > 科研管理论文 >

基于分类模型的知识发现过程研究

发布时间:2020-08-09 08:05
【摘要】: 数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。 本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。 本文的主要研究工作和成果为: 1.针对目前的知识发现过程模型在实际应用中存在挖掘周期长,对大型数据库的知识发现支持不够的问题,提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,可以加快知识发现过程,提高数据挖掘效率。 2.针对知识发现过程的预处理问题,研究了属性选择的理论和技术,提出了一种利用信息理论和概率论,结合了属性选择过滤法和打包法的属性选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程。 3.针对知识发现过程的数据抽取问题,设计了数据库管理系统和数据挖掘算法的接口——数据抽取器。该接口利用一组基于SQL语言的数据抽取器实现为数据挖掘算法抽取必要的统计数据,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。并提出了SQL_C4.5算法,利用数据抽取器实现C4.5决策树的构建。 4.针对数据挖掘的多变量决策树问题,研究了构造多变量决策树的理论和方法。提出了一种利用线性判别法构造决策树的扩展属性,采用C4.5决策树的分枝准则生长树的多变量决策树算法。该方法能有效的减少决策树的复杂度,为多变量决策树的研究 国防科学技术大学研究生院学位论文 提供了新的途径和思路。 5.针对数据挖掘的组合模型问题,研究了组合模型的理论和技术,分析了组合理 论在近邻法的应用现状,提出了一种组合近邻模型的算法,该算法通过使用随机的属性 子集组合近邻模型,提高了分类精度。 最后,本文设计了一个医疗数据知识发现原型系统。利用本文提出的知识发现过程 模型和关键技术,完成了一个医疗诊断系统应用实例的知识发现过程,获得了较好的效 果。 本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论。 方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实 现了利用分类技术优化知识发现过程的目的,具有良好的实际应用前景。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:G302
【图文】:

相关性,属性选择,性选择,属性


性就是非相关属性。完全无关属性图3.1互3.、撇缪粼拳}蘸薰黑{{撰鳄黝黝属性的相关性2属性选择方法3.2.1属性选择的一般程序有许多种属性选择方法。属性选择方法通常要面对的问题是:(1)怎样才能搜寻到“最好”的属性?(2)用什么准则来确定最好的属性子集己经被找到?(3)在什么情第46页

【相似文献】

相关期刊论文 前10条

1 文化;;知识管理:腾讯持续创新的秘密[J];企业文化;2010年05期

2 肖自茹;;会计计量属性的选择[J];武汉冶金管理干部学院学报;2011年02期

3 李惠蓉;;试论现行准则下的金融资产分类与IFRS9改进后的新金融资产分类[J];中国证券期货;2011年08期

4 吴俊英;;智力资源会计计量对象与计量属性的选择[J];生产力研究;2011年06期

5 孙艳萍;;浅谈森林生态效益外部性公允价值计量模式[J];中国乡镇企业会计;2011年06期

6 王敏;;关于会计计量属性的应用选择分析[J];时代金融;2011年21期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前10条

1 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年

2 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年

3 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年

4 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 蒙应杰;张文;吴超;;基于粗集的数据库水印属性选择优化问题[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

6 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年

7 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年

8 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年

9 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

10 张文修;徐萍;米据生;吴伟志;;知识系统与知识发现[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年

相关重要报纸文章 前10条

1 刘向晨;让文件捉迷藏[N];中国电脑教育报;2003年

2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年

3 苍苍;教你两手[N];中国电脑教育报;2004年

4 中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中;空间数据挖掘:变数据为知识[N];计算机世界;2005年

5 柳涛;秋季更需护理肌肤[N];中华工商时报;2002年

6 零和千;练习使用黑白网点[N];电脑报;2005年

7 胡虎;突出信息化贡献水平 处理好三个关系[N];人民邮电;2007年

8 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年

9 尤红梅;蔡雪晴:优势在于执行[N];中国企业报;2004年

10 汤天浩;人工智能技术:未来船舶系统的灵魂[N];中国船舶报;2005年

相关博士学位论文 前10条

1 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年

2 谢宗霞;太阳宁静区磁场流场特性知识发现的方法研究[D];哈尔滨工业大学;2010年

3 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年

4 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年

5 李初民;基于网络管理数据库中性能数据的知识发现(KDD)研究[D];重庆大学;2001年

6 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年

7 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年

8 吴涛;构造性知识发现方法研究[D];安徽大学;2003年

9 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年

10 汤永川;关于不确定性推理理论与知识发现的研究[D];西南交通大学;2002年

相关硕士学位论文 前10条

1 张冬艳;基于粗糙集合理论的决策树构造算法研究[D];合肥工业大学;2006年

2 薛静;专家信息管理系统在CRM中的研究与应用——基于java技术的构架[D];西北工业大学;2001年

3 陈红叶;Web信息提取及知识发现方法研究[D];合肥工业大学;2002年

4 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年

5 王益玲;基于DCS实时信息的智能故障诊断系统的研究与设计[D];南京工业大学;2003年

6 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年

7 郭国印;数据挖掘技术的研究及其在PLM中的应用[D];西北工业大学;2005年

8 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年

9 梁利莉;数据挖掘技术在CRM中的应用研究[D];首都经济贸易大学;2005年

10 刘娟;中药药对的量化分析与知识发现[D];成都中医药大学;2005年



本文编号:2786842

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/2786842.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45c84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com