数据挖掘可视化技术_《天津大学》2007年博士论文
本文关键词:数据挖掘的新技术研究,由笔耕文化传播整理发布。
《天津大学》 2007年
数据挖掘的新技术研究
王彤
【摘要】: 随着Internet的发展,网上购物、电子政务、网上信息检索等活动日益频繁,人们对网络服务的需求成为网络发展的巨大动力。但面对网上巨大的数据量和众多的网站,人们在选择网络服务、检索信息时往往感到无从下手,如何使网络服务适应不同用户的个性化需求已成为网络服务提供者急切关心的问题。要满足用户的个性化需求,关键的问题是如何发现用户的访问模式,对Web进行数据挖掘的目标之一就是要发现用户的访问模式。 Web数据挖掘可分为三种类型,即:Web使用挖掘、Web结构挖掘和Web内容挖掘,而挖掘用户的频繁访问序列是发现用户的访问模式的主要方法,也是Web使用挖掘的一项重要任务。Web使用挖掘可以从Web日志或访问者的行为中发现知识,并且可以从不同用户的访问中发现不同用户的行为之间的内在关系。挖掘的结果可以用于改进Web站点的设计和向用户提供服务的方式,以尽可能地满足不同用户的需求。本文在深入研究了OLTP、OLAP数据库的设计特点和Web日志挖掘的已有算法及其相关知识的基础上,对原AprioriAll算法进行了改进。在Web日志挖掘过程中,通过对Web日志数据按“用户维”进行切片,不仅可以将所有用户看作一个整体进行挖掘,而且还实现了对不同的用户个体的行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一改进同时实现了对Web日志的增量挖掘,使对Web日志的动态挖掘成为可能。实验表明,改进后的算法较原算法减少了挖掘过程中候选集的大小和对数据库的扫描次数,使时空效率得以提高。 针对表示和存储Web事务要占用大量内存,以及Apriori类算法在挖掘过程中要产生大量候选集和对数据库进行频繁扫描的缺点,本文提出了Web事务编码技术和逆-Apriori算法。Web事务编码技术使用一个数字表示一个Web事务,可以对Web事务数据库进行压缩,减少内存的占用;而逆-Apriori算法可以反向获取用户的最大频繁访问序列,并在此基础上发现关联规则,避免了Apriori类算法逐次产生候选频繁项集的烦琐过程。 通过分析用户浏览网页的行为和网站对用户请求的反应,本文还提出了利用用户访问网页的驻留时间进行Web日志挖掘的方法。驻留时间反映了用户浏览网页的行为,通过在挖掘前设定用户访问网页的驻留时间的区间值,使挖掘者可以选择和缩减挖掘的范围,提高了挖掘算法与使用者之间的交互能力。基于这一思想的新算法,首先通过对Web日志的预处理,产生带有驻留时间的Web访问记录集,然后以驻留时间为限制条件,构建驻留时间频繁访问序列树,用以存储和压缩带有驻留时间的数据库,并记录网页的支持数量。最后以驻留时间频繁访问序列树为挖掘对象,在最小支持度的限制下,通过采用深度优先的方法对驻留时间频繁访问序列树进行遍历,发现用户访问网站的驻留时间最大频繁访问序列,对比实验表明该算法对Web日志挖掘有较高的效率。 模糊神经网络是数据挖掘研究领域的又一大热点问题。本文依据最大似然原则,推导出用于模糊神经网络分类算法的交叉熵函数准则,同时构建了新的激活函数。基于交叉熵准则和新的激活函数的模糊神经网络分类算法与基于误差平方和准则的BP算法相比,有更快的学习速率而又不致使学习过程失稳,不易陷入局部极小点。新的激活函数的优点在于不仅可以取到0、1值,而且还具有根据总误差调节函数曲线斜率的能力,加快了算法的收敛速度,提高了算法的效率,改善了算法的动态性能。 最后,本文提出了引入生物信息技术解决Web挖掘中的用户识别问题的设想,并提出了基于隐马尔科夫模型构建虹膜识别系统的方法,该方法仅需要虹膜的方向域作为输入参数,与需要许多虹膜细节的常规方法相比,它对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点;另一方面该匹配方法简化了预处理过程,具有较高的效率。通过准确识别用户,克服了现有Web体系无状态的缺陷,可以实现对Web日志数据按“用户维”进行切片,因此不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同用户的个体行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一设想实施后,还能够实现对Web的增量挖掘,从而使对Web日志的动态挖掘成为可能。
【关键词】:
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.13
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库 前1条
1 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
【参考文献】
中国期刊全文数据库 前1条
1 王继成;王珣;;模糊神经网络系统及其应用[J];模式识别与人工智能;1999年02期
中国硕士学位论文全文数据库 前2条
1 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
2 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 朱俊峰;;关联规则在“基于网络的课程考核改革试点”工作中的应用[J];安徽广播电视大学学报;2009年03期
4 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
5 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
6 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
7 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
8 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
9 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
10 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
4 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
5 冯春晖;陈彦桥;刘金琨;;数据挖掘技术在火电机组运行参数优化中的应用[A];中国自动化学会控制理论专业委员会B卷[C];2011年
6 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
7 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
8 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
9 张柔玲;黄君瑶;;谈病案信息的利用[A];中国医院协会病案管理专业委员会第十八届学术会议论文集[C];2009年
10 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
5 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
6 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
7 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
8 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
9 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
10 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
3 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
4 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
5 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
6 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
9 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
10 徐一凤;隐私保护聚类挖掘方法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 叶良艳;;基于改进后的K-means聚类算法的网吧用户行为聚类[J];安徽科技学院学报;2009年04期
2 赵耀红;;基于向量空间模型的信息检索系统的研究与实现[J];长春大学学报;2009年08期
3 王桂芹;黄道;;数据挖掘技术综述[J];电脑应用技术;2007年02期
4 游庆祥;尤瑞玲;;一种基于向量空间模型的构件库设计[J];电脑知识与技术;2009年03期
5 张冉;夏素萍;;一种基于空间向量模型的主题PageRank算法[J];电脑知识与技术;2009年04期
6 许伟佳;;基于向量空间模型的文档聚类研究[J];电脑知识与技术;2009年25期
7 潘国清;;一种向量空间模型中对特征项的改进方法及应用[J];湖南工程学院学报(自然科学版);2009年02期
8 刘辉;胡大治;;数据挖掘技术发展及其应用[J];甘肃科技;2006年04期
9 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
10 邢永康,马少平;一种基于Markov链模型的动态聚类方法[J];计算机研究与发展;2003年02期
中国博士学位论文全文数据库 前2条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 柳枫;基于统计的数据挖掘技术在CRM系统中的应用研究[D];大连理工大学;2003年
2 吴文妹;基于改进关联规则和聚类算法在数据挖掘中的应用[D];福州大学;2005年
3 王威;CRM中聚类分析的算法研究与实例应用[D];西安科技大学;2005年
4 张昭涛;数据挖掘聚类算法研究[D];西南交通大学;2005年
5 王洪艳;基于聚类的数据挖掘技术在CRM中的研究与应用[D];武汉大学;2005年
6 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
7 张帆;WEB数据挖掘在商务网站中的应用实践[D];山东大学;2007年
8 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
9 赵文忠;WEB挖掘在农业网站的应用研究[D];东北农业大学;2008年
10 陈再良;一种基于向量空间模型的商品分类算法[D];复旦大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 张灵玲,周文辉,韩耀伟,李俊,潘金贵,三枝武男,坂上修二,奥山明;基于Internet的课件信息发现和收集Agent的研究[J];计算机研究与发展;1999年04期
4 路海明,卢增祥,徐晋晖,李衍达;基于Agent技术的个性化主动信息服务[J];计算机工程与应用;1999年06期
5 赵仲孟;张蓓;沈均毅;;对搜索引擎未来发展的探讨[J];计算机科学;2001年03期
6 丁蔚,倪波;因特网信息服务新模式[J];情报理论与实践;2000年02期
7 张惠文;网络信息检索技术的智能化趋势[J];情报理论与实践;2001年06期
8 曾民族;网络信息检索现状和性能评价[J];情报学报;1997年02期
9 周大勇;网络环境下的个性化需求与个性化信息服务[J];情报杂志;2001年11期
10 刘静;论网络信息检索[J];图书情报工作;1999年01期
中国重要报纸全文数据库 前1条
1 齐剑锋 彭岩;[N];计算机世界;2001年
中国硕士学位论文全文数据库 前1条
1 袁莉;基于Web的个性化信息服务机制[D];四川大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 李恩玉;杨平先;孙兴波;;基于激活函数四参可调的BP神经网络改进算法[J];微电子学与计算机;2008年11期
2 唐凤仙;汤鹏杰;;基于BP网络的有教师分类算法及应用[J];河池学院学报;2011年02期
3 彭汉川,甘强,,韦钰;提高前馈神经网络推广能力的若干实际方法[J];电子学报;1998年04期
4 李岚,英锐男,陈晓平;BP网络的一种优质高效学习算法[J];江苏理工大学学报;1999年01期
5 郭海涛,张殿伦,马国芳,厚宇德;使用BP算法时应考虑的若干问题[J];佳木斯大学学报(自然科学版);2000年04期
6 沈艳军,汪秉文;激活函数可调的神经元网络的一种快速算法[J];中国科学E辑;2003年08期
7 梅冬芳;;采用调整函数优化梯度的BP算法改进[J];现代电子技术;2006年16期
8 牛奕龙;王英民;王毅;;一种改进的自适应不完整自然梯度盲源分离算法[J];模式识别与人工智能;2006年05期
9 鲁娟娟;陈红;;BP神经网络的饱和分析及改进[J];计算机仿真;2007年03期
10 初丽娟;沈艳霞;;基于VHDL语言的神经网络激活函数随机运算的实现[J];江南大学学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 李彬;李贻斌;荣学文;;激活函数可调的ELM学习算法及其应用[A];中国自动化学会控制理论专业委员会D卷[C];2011年
2 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 王担担;阮秀凯;张志涌;;基于Hopfield网络盲检测QAM信号的激活函数[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 周莉;张勇;邢春晓;;ULMF:一种基于构件的通用日志挖掘框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
5 孙长银;冯纯伯;;关于时滞神经网络的指数周期性[A];2003中国控制与决策学术年会论文集[C];2003年
6 王军;宋宝燕;于戈;;一种Web日志挖掘数据预处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 师文清;叶晓俊;;基于查询日志挖掘的网页聚类研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 王洪俊;赖志国;施水才;肖诗斌;;基于查询日志的查询建议挖掘[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 张继业;张克跃;;具有无穷时滞的Cohen-Grossberg神经网络的全局稳定性分析[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文集[C];2007年
10 张继业;张克跃;;具有无穷时滞的Cohen-Grossberg神经网络的全局稳定性分析[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 王彤;数据挖掘的新技术研究[D];天津大学;2007年
2 沈艳军;多输出神经元模型的多层前向神经网络及其应用[D];华中科技大学;2004年
3 梁金玲;时滞神经网络模型的动力学研究[D];东南大学;2006年
4 徐军;递归神经网络稳定性分析[D];浙江大学;2007年
5 王丽丹;多卷混沌发生器的设计、电路实现与应用[D];重庆大学;2008年
6 王刚;基于最大非高斯估计的独立分量分析理论研究[D];国防科学技术大学;2005年
7 韩飞;基于先验信息编码的约束学习算法研究[D];中国科学技术大学;2006年
8 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
9 张昀;基于复数Hopfield神经网络的盲信号检测[D];南京邮电大学;2012年
10 罗建;基于人工神经网络模型的母线保护研究和实现[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 宁兴旺;基于日志挖掘的网络安全审计系统研究与实现[D];山东师范大学;2010年
2 桂辉;WEB日志挖掘在网站推荐服务中的应用研究[D];华北电力大学(北京);2011年
3 史振华;基于Web日志挖掘的网站优化技术与应用[D];武汉理工大学;2010年
4 杨鹏;Web日志挖掘数据预处理算法研究与实现[D];北京邮电大学;2011年
5 刘宇婷;基于Web日志挖掘的个性化服务研究与应用[D];北京理工大学;2010年
6 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
7 赵伟;基于Web日志的用户访问模式挖掘[D];天津大学;2004年
8 孙赵平;基于关联规则的web日志挖掘应用研究[D];安徽大学;2010年
9 韩莉;基于概念格的Web使用日志挖掘及其在个人化技术中的应用[D];安徽大学;2003年
10 王靓明;融合多重模糊矩阵_SOFM的Web日志挖掘研究[D];南昌大学;2010年
本文关键词:数据挖掘的新技术研究,由笔耕文化传播整理发布。
本文编号:151410
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/151410.html