智能检索中的网络数据挖掘技术探索
本文关键词:智能检索中的网络数据挖掘技术探索,由笔耕文化传播整理发布。
智能检索中的网络数据挖掘技术探索
中国图书馆学报(双月刊)2002年第3期
Z]}删GGI,,O
TUSHUGUANXUEBAO
●晏创业张玉峰
智能检索中的网络数据挖掘技术探索“
摘妻缺少一种深^信息内容的网络信息搜索工肄。是实现智能硷索的主要围难。采用阿络数据挖掘技术是解奂问题的关键。从智能信息检索的角度出发,丰耍考虑从网络信息内容的戈联度来挖掘网络数据。图1.表1。参考义献7。关键词智能检索
分类号G2527
刚络信息检索数据挖捌
AI&C;TRACT
Theauthorsthlnkthatthemajordifile山v
in
realuing
intdligcaatsearchisthelackd
to
a
networkinformationsearchtoalreachinginformationcontesats,andthekeynetworkdataminingtechniquestheminingof
solvetheproblemisthe
COHIeHts
They如discuss
flg
ltab
7refs
therelevanccofnetworkinformationfor
network
datal
KEYWORDS
Intelligentsearch
G2527
Networkinformationsearch
Data
mining
CI』ASSNUMliER
智能检索能帮助人{『J在开发网络信息资源时馓到“取其精华.去其糟粕”。它能摆脱表层信息的下扰,从信息内容的角度出发,搜索出高质量的信息。目前,人们对信息检
索过程中的智能化要求主要体现在基于内容的检索、个性化信息检索和知识检索。
目特同上的信息资源不同于一般意义上的数据库.除
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、随机的数据中,提取潜在有用的信息和知识的过程。数据挖掘源自人工智能的机器学习领域,是在一个已知状态的数据集上。通过设定一定的学习算法.从数据集中获取所需的知识。这些知识能够用J‘倍皂管理、智能查询、决策支持、过程控制叭及其他方面,
具有开放性、异构性和分布性等特点外.还具有半结构化、非结构化的动态关联特性。网络信息的特点央定了我们不能像对待静态结构化的数据库信息那样来对待它。然而,当前的一些网络信息搜索工具仍遵循了大型数据库的信息
检索思想.旦口对网贞的标题、URL等表征信息和没有进行深
数据挖掘的最初对象是一些大型的商业数据库.岜通过描述数据、计算统计变量(比如平均值、均方差等),并将
这些变量用图表直观地表示出来,进而找出数据变量之间
的相关性,即发现知识,以提供解决问题的依据。随着数据
挖掘技术在商业数据库中的成功直用,它卫被迅速移植到
度分析的关键词进行标引,然后建立网络信息的倒排文档,
将它们简单地聚合在一起。这种以数据库信息处理方式组
电信、医疗保险等领域,因特网的出现为它提供丁一个更为
广阔的用武空间。借用数据挖掘的原理来实现网络数据的
织起来的信息源,在检索中主要有3个弊端:一是同一关键词检索出来的信息“貌台种离“;二是检索结果中出现大量的冗余信息;三是因为信息用户理解差异的存在,在使用某些检索词时根本就检索不到任何信息。
基于内容的检索和个性化的信息检索.都是建立在网络信息内容基础之上的.真正的知识性,是儿对信息内容的
深层挖掘中体现出来的。面对因特网上源源生成的信息.
探层挖掘.发现并组织网络知识,是将网络信息检索技术推
向智能化高度的有救手段。
1
2网络数据挖l模型设计
网络数据有小同于一般数据库中数据的特点:异构和
半结构化。因特网上的每一个站点都是一个数据源.每一
个数据根都有自己的设计风格,即每个站点的信息和组织
都不一样,用特网就是一个巨大的异构数据库.不删于传统的关系数据库。因特同上的数据非常复杂,没有统
的模
我1『】需要 种太批量、深人内容的信息处理技术,使其按照内容特性聚集.并体现一定的知识性。将最初面向数据库的数据挖掘技术引入到崮特网中,是解决问题的关键。
型描述,这些数据虽有定的结构性,但网自述层次的存在
和复杂的相互关联,因而是一种非完全结构化的数据。鉴
于网络数据的这些特点,我们在将数据挖掘技术引^因特
1面目目特目的数据挖掘
1
网的时候,必须要做定的预处理工作,在此基础上的网
1数据挖撮的棚关韧识
络数据挖掘模型如图1所示。
*
本文系国家杜科基金资助项目(编号:0IBTQ011)的研究论文。
万方数据
49
本文关键词:智能检索中的网络数据挖掘技术探索,由笔耕文化传播整理发布。
本文编号:150405
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/150405.html