当前位置:主页 > 论文百科 > 研究生论文 >

基于物流信息的关联规则算法及其应用研究

发布时间:2016-04-28 16:31

第一章绪论

1.1论文研究背景及意义
随着互联网的快速发展,以及RFID数据釆集技术和数据库存储技术的不断改进,企业从自身的物流活动积累了大量的业务数据。如何有效的利用海量数据来改善企业业务,提高自身盈利水平,已成为物流企业的核心任务。数据挖掘作为一门新兴的交叉学科,将传统的数据分析技术和机器学习,人工智能等复杂算法相结合,能有效地挖掘出隐藏在数据背后的规律,给企业带来巨大的经济效益,正吸引着众多企业的广泛关注⑴。关联规则是数据挖掘领域的重要组成部分,以企业的交易数据库为主要的研究对象,其目标在于发现隐藏在交易数据库中商品之间的强关联关系。经典的关联规则挖掘算法主要被应用于处理布尔型属性的数据集,并且以支持度和置信度作为度量框架,直接影响最后的算法结果[2]。但是现实的企业数据集包含大量的数值型属性(销量,单价,年龄,薪水等),利用传统的算法无法准确的发现商品之间的关系。同时有些强关联规则由于商品购买频次较低,无法被传统的度量框架发现,但是往往这些关联规则存在较高的商业价值,造成企业的经济损失[3]。因此,改进现阶段的关联规则算法,使改进算法能够良好适用于含有数值型属性的数据集,同时对度量框架进行改进,要求改进的度量框架能够发现支持度较低的强关联规则并且过滤掉冗余或者无效的关联规则,对于扩大关联规则算法的实际应用场景具有重要的意义。商品之间的关联关系能够指导企业获得额外的交叉销售机会,提高企业的盈利水平。因此,各个行业包括电信,保险零售等都在利用这类规则来提高自身竞争力。但是由于我国物流行业发展较晚,和发达国家相比,企业物流整体成本较高随着近年企业逐渐重视物流发展,企业物流信息化水平普遍提高,并积累了大量数据致力于降低物流成本。但是现阶段的很多物流企业仅利用这些数据进行简单的查询管理等操作,并不立足于发现隐藏在这些海量数据背后商品之间的强关联关系。因此如何利用关联规则算法发现的商品之间的关联关系,来改善物流业务,降低企业的物流成本,对于企业具有重大的研究意义。
.........

1.2国内外研究现状
关联规则己经逐渐成为数据挖掘领域的研究热点之一,但是现阶段关于关联规则的改进算法主要集中在如何降低算法运行的时间复杂度和空间复杂度,例如Han等提出了 FP增长算法,利用树结构来减少数据库的读取次数。Toivonen提出了基于抽样的频繁项集的产生方法,同样只需要扫描一遍数据库,其他算法还包括树投影和H-Mine_等。然而算法的结果需要最终为商业决策服务,算法的研究不能只看重算法运行的快慢而忽略了算法结果的有效性和适用性。量化关联规则能够有效处理连续型属性,扩大关联规则算法的应用范围,而客观兴趣度度量能够增强所提取的关联规则的有效性,但是国内外这方面的研究相对较少。目前的关联规则算法主要用于处理布尔型属性,在数据集中出现数值型属性时,一种很自然的策略是将数值型属性转化为布尔型,从而将原始问题转化为布尔型的关联规则问题。当数值属性取值较少时,可以将每个取值设定为布尔属性;若取值较多时,需要将取值范围划分为多个区间,每个区间分别被映射成为布尔属性。这是国内外关于量化关联规则研究的热点,同时由于区间划分存在的边界尖锐问题,一部分学者还提出了模糊关联规则的相关概念。
.......

第二章数据挖掘理论综述

2.1引言
上一章介绍了研究背景和意义,同时在分析国内外前沿研究的基础上,提出了论文的主要研究框架和思路。本章将对本文研究所涉及的相关领域进行概述,主要包括数据挖掘定义,按掘任务的分类和核心算法对比,以及数据挖掘的整体建模过程。数据挖掘概念:关联规则是数据挖掘的核心领域,从海量数据提取有价值的趋势,模式和关系都可以认为是数据挖掘的任务,正确定义数据挖掘能够帮助处理实际企业需求。数据挖掘任务分类和算法对比:数据挖掘任务主要分为聚类,分类,以及关联规则。三个部分虽然任务,处理算法不同,但是在算法研究和实际应用场景中,经常将三个部分的算法融合应用,以提高实际应用效果。详细分析各个任务算法的优缺点能够为下文算法改进提供基础。数据挖掘的整体建模过程:数据挖掘并不是简单的应用挖掘算法的过程,要产生具有实际应用价值的规律,需要经历定义挖掘目标,预处理,模型构建,模型评价等一系列的过程。明确各个环节的任务及注意事项是挖掘任务顺利完成的保障,因此,本章首先需要对数据挖掘的整体建模过程进行叙述,为后面章节的实际应用做铺塾。
..........

2.2数据挖掘的起源与概念
数据采集和数据库存储技术的快速发展使得各个行业积累了海量数据,这些海量数据如实记录着企业的运作,具有很高的商业价值。这些商业价值也吸引着企业寻找合适的分析工具,来寻找隐藏在数据中的运营规律,为商业智能决策提供有价值的建议,提高企业收益能力。同时,丰富的数据也对现阶段的数据分析工具技术提出了极大的挑战,传统的数据分析技术己经无法满足现阶段数据可伸缩,高维性,异种类型[41]等特征。数据挖掘将海量数据复杂算法融合到传统数据分析技术中,能有效处理现阶段数据的复杂特征。这些数据处理方法和复杂算法来源于多个学科,并在数据挖掘领域融合创新。首先数据仓库,和互联网等技术的高速发展创新使得企业具备存储海量数据的能力,这些能力伴随着访问技术的改进为数据挖掘的实际应用研究提供了必要条件。其次人工智能等理论和技术被成功应用于商业处理也对数据挖掘的发展起到了极大的推动作用⑴。本文认为:数据挖掘(Data mining)就是从海量数据(包括文本数据)中挖掘出未知的,隐藏在数据中,对最终决策有价值的趋势,模式和关系,并利用发现的规则和知识来建立决策支持模型,并提供决策支持的工具,方法和过程。这些建立的决策支持模型和方法可以被实际企业应用于商业分析,需求预测等。总之,企业的运作产生了大量的数据,这些数据和信息如实记录着企业的运作情况,通过数据挖掘技术分析,能够帮助企业发现自身商业运作中的趋势,并可应用于预测未来的发展。数据挖掘技术已经成为了物流企业降低成本,吸引客户,保持市场竞争力的必要工具。
........

第三章关联规则算法分析.......14
3.1关联规则概述.......14
3.2 Apriori 算法.......15
3.3频繁项集紧凑表示.......18
3.3.1极大频繁项集.......18
3.3.2闭频繁项集.......18
3.4算法优缺点分析.......20
3.5本章小结.......21
第四章基于聚类的量化关联规则算法.......22
4.1引言.......22
4.2量化关联规则现状.......23
4.3基于聚类的量化关联规则.......24
4.4量化关联规则算法实例.......26
4.5本章小结.......32
第五章关联规则客观兴趣度度量研究.......33
5.1引言.......33
5.2传统客观兴趣度度量的描述.......34
5.3新型客观性度量的描述.......37
5.4客观兴趣度度量分析比较.......40
5.5本章小结.......42

第六章基于关联规则的改进库存管理方法

库存管理是物流管理的核心领域,其目的在于及时满足市场和生产需求。库存管理的最终目的在于降低库存系统的运作成本。由于库存项目种类繁多,很多企业利用ABC分类法进行重点项目分类管理。本文在此基础上,针对ABC分类法未考虑交叉销售效果的缺点,提出了量化关联规则和ABC方法相结合的分类方法,该方法利用量化关联规则度量交叉销售效果,且在算法中引入了新型的度量指标确保规则的有效性。实验结果证明,新型的ABC分类方法结果和传统ABC分类结果存在较大的差异,但是改进算法的最终结果能够更好的反映商品的价值,具有更好的商业指导性。

6.1引言

库存管理的最终目的在于通过确定最优补货批量和最佳的补货时机来最小化库存系统成本。国内外研究人员主要通过针对具体的库存系统建立数学模型,模型的目标函数是最小化整体库存系统的运作成本,决策变量为补货批量和补货时机,并且针对具体的实际问题建立相应的约束条件。通过求解数学模型,从而得到最优的库存管理策略。然而在实际库存管理系统中,由于库存商品品类繁多,为每种商品制定个性化的库存控制策略(安全库存,补货策略)并不可行,通常是将所有商品针对优.先级进行分类,对同一类别的商品采用统一的库存管理策略。ABC分类法【70】基于“关键少数,次要多数”的思想,并被广泛应用于商品优先级排序分类。在传统ABC分类法中,金额占用作为一个重要的衡量指标来体现商品的重要性,除此之外,缺货影响,库存维持成本,供货稳定性等参数也被国内外研究人员和企业应用于库存商品的分类。

基于物流信息的关联规则算法及其应用研究

.........

总结

本文主要针对数据挖掘领域关联规则的算法理论及其库存分类应用进行了如下多方面的研究工作:
(1)归纳总结了数据挖掘的起源,定义以及任务,并对每个任务涉及的算法进行比较分析,同时梳理了整体建模过程,描述了挖掘技术及其物流应用现状。
(2)概述了关联规则的核心思想,介绍了其中Apriori算法,且总结了现阶段关联规则的缺点:首先,Apriori算法只能处理布尔值属性,无法处理实际数据集中包含的可量化属性;其次,支持度和置信度度量框架无法有效提取低支持度但是有效的规则,同时所产生的规则存在较多的冗余和虚假情况。
(3)针对研宄内容(2)中第一个缺点,提出了一个基于快速聚类法的改进量化关联规则算法,通过将连续性属性投影到离散区间实现属性的离散化。同时快速聚类法考虑了样本各个属性的相关性,且不受离群点的影响,具有较好的聚类效果。
(4)针对研究内容(2)中关联规则的第二个缺点,本文研究了国内外较为经典的度量指标’并对经典指标进行对比分析,同时在此基础了引入了相关性和熵的概念,提出了一个新型的度量框架,能够有效的挖掘出隐藏在数据集中的关联规则。
.........
参考文献(略)




本文编号:37486

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/lwfw/37486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4488a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com