数据挖掘技术在随书光盘中的应用
摘 要:
摘 要:本文分析了目前图书馆随书光盘管理方面存在的问题,阐述了数据挖掘技术在随书光盘应用中的需要,通过对随书光盘信息进行数据挖掘,发现读者借阅历史记录中隐藏的一些关系,并对隐藏的这些关系进行了具体的分析。
关键词:
关键词:随书光盘 数据挖掘 关联规则
随着科学技术的不断发展和进步,现在越来越多的图书都附带随书光盘,它主要是存储与书籍内容相关的图像、音频和视频。读者通过对光盘内容的进一步学习,不仅可以大大地丰富其理论知识,而且还能够相应的拓展其知识面,主要是可以把他们学习到的理论知识很好地运用到实际工作和生活中。
目前,已经有许多图书馆采用数据挖掘技术为图书馆的信息管理服务,但一般以书籍借阅信息作为原始数据进行处理。随着图书馆随书光盘的不断增多,读者自由选择范围的增大,图书馆的图书借阅量呈直线上升趋势。如何对随书光盘借阅产生的大量数据进行有效的分析,怎样找出有价值的信息更好地为图书馆的管理服务,让图书馆的纸制资源、随书光盘和电子资源整合并统一进行数据挖掘,具有重大的理论价值和现实意义。
1 随书光盘管理的现状
图书馆随书光盘的管理主要有三种模式:一是光盘随书进行流通管理,这种方式管理方便,,缺点是容易造成混乱和损失。二是光盘和图书分开进行管理,读者需要借阅光盘时进行单位借阅和拷贝,优点是减少损失,缺点是借阅不便。三是通过计算机网络进行数字化管理,优点是方便读者借阅,缺点是管理成本高[1]。
在光盘和图书分开借阅的管理方式下,
读者需要进行二次借阅,造成借阅量不高,使得许多图书资源得不到有效利用,为知识的传播带来不便。为了更好的向读者提供服务,方便读者使用随书光盘,提高图书馆资源的使用率,目前随书光盘正越来越多的采用网络存储管理。网络管理的方式需要有相应软硬件设备,比如网络设施、存储设备和相应的软件,不仅要对原始光盘的数据进行相应的处理和存储,还要在使用过程中对相应的软硬件设施进行相应的维护。随书光盘的网络借阅管理将会产生大量与读者查询下载相关的借阅信息,如何利用这些借阅信息进行有效的数据分析,是提高图书馆服务水平的重要工具。
2 数据挖掘
2.1 数据挖掘概述
数据挖掘就是从大量数据中提取或者“挖掘”知识,但这些数据是不完全的、模糊的、含噪声的和随机的,而数据挖掘就是要从中提取出那些隐含的、未知的、有价值的和潜在的信息的过程,它也可以看作是一种决策支持过程,通过对各组织的海量数据进行分析,归纳推理并从中挖掘出潜在的模式,其结果将可为管理层的决策提供支持[2]。
2.2 数据挖掘工作的流程(见图1)
第一,确定数据源对象。确定数据挖掘任务的应用要求,对所需要处理的大量原始数据进行收集。第二,确定目标数据。根据数据挖掘的任务要求确定数据目标,从原始数据中选出需要进行挖掘的数据。第三,预处理及转换数据。预处理需要对目标数据进行处理,检查数据是否符合一致性要求,去除掉数据含有的噪声。数据转换的主要任务是对预处理的数据进行相应操作,用以降低数据维数,减少数据数量。第四,数据挖掘。根据对数据进行挖掘的目标和用户的需要,确定要用到的挖掘算法,因为根据不同的任务目标,可能用到的挖掘方法也不一样,比如有分类、总结、聚类和关联规则等方法。对数据通过确定的算法进行相应的数据挖掘,得到用户需要的模式。第五,解释评价。对得到的模式进行解释评价,经过用户或机器的评估后,当有冗余或无关的模式,要将其去掉;当发现模式不是用户期望要求,就需要重新选取数据,采用新的数据变换方法,设定新的数据挖掘参数值,甚至换一种挖掘算法重新进行数据的挖掘。第六,得到用户需要的模式,并对它进行评价以用户可以理解的方式显示给出来[3]。
3 图书馆随书光盘的数据挖掘
3.1 关联规则挖掘概述
关联规则挖掘是为了发现数据库中不同数据项集间隐藏的关联关系。关联规则有两个重要的标准:一是支持度(Support),表示在事务中A和B同时出现的概率有多大,可用概率 P(AB)表示;二是可信度(confidence), 它表示关联规则A出现时B同时出现的可能性有多大,它可用条件概率P(B|A)表示。关联规则的挖掘算法是要在事务中找出具有设定的最小支持度和最小可信度的关联规则。
3.2 Apriori算法及在光盘挖掘中的应用
目前有大量关于关联规则挖掘的研究成果,出现了各种各样的挖掘算法。如Apriori、抽样算法和DIC算法等[4]。 在随书光盘挖掘中将使用Apriori算法对光盘借阅信息进行关联规则挖掘。
Apriori算法中首先要生成频繁项集然后频繁项集根据最小支持度和最小可信度产生关联规则。
Apriori算法的步骤如下[5]:
输入:事务数据库D,最小支持度阈值minsup
输出:D中的所有的频繁项集
L1=search_frequent_1_itemsets( D );// ?所有频繁?1?项集?
for(k=2;Lk-1 !=φ;k++)?
begin
Ck=apriori_gen(Lk-1,minsup); //生成候选项集 所有的k-项集中满足其(k-1)- 子集都在Lk-1里的全体
//扫描数据库事物集
for?each?transaction?t?in?D
begin
Ct=subset(Ck,t);
// Ct是Ck中被t包含的候选集的集合
for?each?candidate?c?in Ct
?c.count++;?
end
Lk?={c?∈Ck|c.count>=minsup};
// Lk?是Ck中满足不小于minsup的全体项集
end
Result=Result∪Lk; //得到所有频繁项集
3.3 随书光盘的信息挖掘形式
其一,利用图书查询和借阅信息进行综合的数据分析,可以找到光盘的关联关系。由于现在知识更新的非常快,所以只提取近十年的数据。首先需要把读者按专业和年级进行分类,然后根据学生的专业、班级等内容按学期把学生借阅历史信息提取出来。
从借阅历史记录中搜寻的原始数据可能存在许多空的数据和含有噪声的数据,这会影响最后挖掘结果的准确性。在进行数据挖掘前要对这些数据进行预处理以消除噪声和冗余信息。以一年级计算机专业为例,对光盘按登录号进行排序。下表1为根据学期分类的借阅信息。
表1 光盘借阅信息表
借书证号
班级号
光盘1
光盘2
光盘3
光盘4
光盘5
光盘6
光盘7
……
14010112
030402
1
1
1
1
1
……
14010113
030402
1
1
1
1
……
14010202
030402
1
1
1
……
14010212
030402
1
1
1
1
……
本文编号:14582
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/14582.html