基于数据挖掘的数字图书馆个性化服务研究
摘 要:
摘 要:随着我国网络通信的不断创新进步,数字图书馆逐渐获得良好的应用,为人们提供便利有效的信息,然而,人们在享受其便利的同时,信息庞大而种类多样也一直困扰着人们,并成为阻碍数字图书馆个性化服务发展的重要阻碍。鉴于此,本文引入数据挖掘技术,在阐述数据挖掘的含义、类别以及数字图书馆个性化的服务基础上,重点就基于数据挖掘的数字图书馆个性化服务展开探讨,以为数字图书馆的建设提供技术支持。
关键词:
关键词:数据挖掘 数字图书馆 个性化服务
近年来,随着我国国民经济的快速增长及网络通信的不断进步,数字图书馆作为以计算机为媒介,集信息数据收集、创建、加工和储存等服务为一体的信息平台,逐步获得了社会的广泛认可与应用,其不仅方便快捷,具有庞大的信息总量,且节省空间、更新迅速。然而,庞大多样的信息也加剧了用户检索的困难,增加了操作的复杂度。因此,引入数据挖掘,发展基于数据挖掘的数字图书馆个性化服务意义重大。
1 数字图书馆个性化服务
数字图书馆个性化服务,主要是指根据系统对其用户的行为和习惯进行一定的记录和分析,然后判断用户的偏好与特定的需求等,进而向其提供符合其特点的个性化服务的过程。个性化服务的本质即针对性,针对不同的喜好与选修的信息用户可以采用不同的服务方式,并且提供不同的能够满足其个性服务内容。个性服务的另一层面即主动性,主要是指系统会根据用户的信息和需求提供相对应的服务。具体而言,数字图书馆个性化服务主要涉及以下几方面。
(1)私人书架,或称私人信息资源库,即数字图书馆在为读者提供个性化服务的过程中,记录读者的历史访问关键词、历史浏览信息、定制以及推送信息的资源等分类保存私人信息的空间。
(2)个性化检索,主要是指根据用户申请材料与档案及其历史搜索关键字与浏览数据等信息来分析并判断此读者的兴趣爱好,以自动为读者分类,将其可能感兴趣的内容显示出来的同时过滤无关信息,进而为读者提供个性化的服务。
(3)信息的分类定制,即数字图书馆用户可以根据自己的需求与目标,设置最为合适且贴切的信息类型、信息资源表现形式以及系统的服务策略等。
(4)信息的推送,一种以推送技术为核心和动力的主动性的信息服务方式,即通过设置一定的标准和协议,根据用户的需求与爱好,计算机网络会自主的将用户可能会感兴趣的信息发送给用户的一种个性化服务。
(5)信息垂直门户,主要是指与信息综合性门户或信息水平门户相对应的一种服务方式,它可通过一定的程序汇集网络上有关某一主题的大量专题信息并进行进一步的挖掘与加工,进而最大程度的满足用户对于某一方面的专业性的个性需求。
(6)虚拟咨询,为提供最专业的个性服务,满足用户的多样需求,数字图书馆个性化服务体系应构建一个与用户沟通、接收咨询、反馈信息的服务平台,即虚拟咨询平台,可包含邮件、留言板、直接对话、聊天等多种形式,咨询服务提供者可是相关领域的专家,也可是相应的知识库等。
(7)数据挖掘,即通过运用数据挖掘、联机分析等技术对用户的历史访问的信息进行分析总结,以发现其关联,判断读者的兴趣偏好等,继而为读者开展个性化的服务。
2 数据挖掘技术
数据挖掘,又称知识发现,主要指在对大量的、不完整的、含义模糊的数据或数据库进行统计分析的基础上,发现其中隐含或潜在的一些有用知识,并通过对其综合、归纳以及推理并揭示各个事件之间的相互关联,进而达到预测事情发展、辅助工作的作用。一般,数据挖掘因为研究对象的数据结构与形式的不同而各不相同,其主要的分为三类。
一是数据挖掘,主要针对数值与数据,其最常用的方法包含有统计分析法、归纳学习法、神经网络分析法、仿生物技术及遗传算法等。其中,不同的方法具有不同的特点、功能与应用。因此,数值或数据挖掘过程中的方法选择至关重要,若条件允许,可多种方法结合,进而达到优势互补的效果。二是Web数据挖掘,主要是指通过数据挖掘方法及相关技术的应用,发现各种Web数据中隐含的有用信息,帮助人们提取知识,进而不断改进站点设计,以促进电子商务进一步的改进和发展。三是文本数据挖掘,主要是指以文本信息为挖掘对象,,通过数据挖掘算法与信息检索算法的结合使用,达到对大量文本信息的特征分析、文本摘要、分类聚类及探索性的数据分析处理等,其常用的技术方法主要包含词频向量表示法、词串法及文本聚类法等。
3 基于数据挖掘的数字图书馆个性化服务体系构建
数字图书馆个性化服务体系,即通过系统的服务方式与策略设计,满足读者多样需求,使得读者以最小的投入获得最为切合的信息资源的服务过程。因此,基于数据挖掘的数字图书馆个性化服务体系的构建必须以大量、真实有效的数据信息为基础和前提,即基础数据库的积累与建设至关重要。结合相关实践,构建个性化服务体系应注重以下几方面。
其一,原始信息和用户特征的提取与收集,这主要是指图书馆在读者登陆访问时,应系统完整的记下其相关的个人的信息、浏览的信息以及行为特征等。个人信息包含姓名、性别、年龄、职业、学历、偏好以及IP地址等;浏览信息则主要包含对某主题的访问次数、访问时间、下载次数及检索记录等;通过Web软件对上诉信息的记录,分析获取其行为特征与偏好,进而提供更精确的个性服务。
其二,数据的预处理及转换。一般,经过上诉过程,数字图书馆会搜集到大量的信息,此时应进行数据预处理。数据转换则主要通过分析数据特征,依靠维变换方法减少变量数目、分类构建数据仓库等。
其三,确定目标,开展数据挖掘。数据挖掘之前应首先结合实际,制定清晰细化的目标。数据挖掘时则应根据相应的目标和数据特点选择计算方式,进而对经过净化和转换后的数据库进行数据挖掘。
其四,结果分析与调整,即对数据挖掘的结果进行合理的解释和适当的评价,若发现潜在的矛盾与问题时,应注重应用预先可信的知识与理论对其进行检查和解释,并最终解决此矛盾。
其五,对于数据挖掘的数字图书馆个性化服务体系的结构,笔者认为应采用数据仓库、数据挖掘和联机分析处理等技术共同对用户信息资源和访问浏览等数据进行分析和挖掘,从中探索、发现彼此之间的关联,进而为用户开展个性化服务,笔者认为个性化服务系统的结构应如下图所示。此个性化服务应包含:异构文献资源整合,即为便利读者对于异构平台中的信息资源的获取而构建的统一检索平台;数据仓库,即对数据仓库中的数据组织根据不同的主题进行再组织;OLAP,通过对多维组织的数据进行各类分析,以能从多种维度查看。
4 结论
数字图书馆个性化的服务改变了图书情报机构僵硬的运作方式,也为数字图书馆的进一步发展与创新提供了广阔的发展空间与发展前景。然而,因数字图书馆个性化服务体系的构建精细庞大,需多种高新技术支持,仍存在成熟度不足等问题,有待进一步的发展,但笔者相信,数据挖掘等技术的逐步精进及相关研究的不断深入必然会对数字图书馆个性化服务建设带来创造性的影响。
参考文献:
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.
[2]李琳琳.数据仓库与数据挖掘在图书馆决策管理中的应用[J].科技情报开发与经济,2008(1).
本文编号:14540
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/14540.html