基于模糊聚类的Web访问模式挖掘
本文关键词:基于模糊聚类的Web访问模式挖掘 出处:《山西师范大学》2016年硕士论文 论文类型:学位论文
更多相关文章: 聚类 Web使用挖掘 评估函数 Web访问模式
【摘要】:通过发现web日志数据中有用的访问模式可以帮助我们更好的实现web个性化和web结构再调整。目前,对web日志挖掘还处于深入探索阶段,成熟的理论和方法还没有完全形成,有待进一步的研究。传统的关联规则算法已不能处理日益庞大的数据量和多样的数据类型,而基于频率的web日志挖掘技术提取出的信息也往往对于最终用户来说并没有太大的效用。本文研究了基于模糊聚类的web访问模式挖掘算法。首先,为了度量不同用户访问模式之间的相似度与相异度,等长的模糊向量被用来刻画用户浏览网页的时间,其中的每个要素要么为0,要么为模糊语言所表示的模糊变量,该向量不仅能够体现用户是否访问过该网页,而且还可以刻画用户在网页上的浏览时间。数据的浏览时间用模糊语言变量来表示,这符合人们的正常思维方式,并且可以忽略访问时间与访问时间之间的微小差异。由于类与类之间不存在清晰的边界,因此使用模糊粗糙K-Means算法对这些表征用户浏览特征的用户模式进行聚类。实验表明,该方法能够有效降低时间复杂度和提高系统准确性。其次,考虑到网页访问频率、访问时间都可以反映用户兴趣,提出了一个新的方法用来解决网页访问模式的提取问题,这个方法在聚类的基础上可高效提取web访问模式,模式值运用了一个用户自定义的评估函数来计算。基于不同数据集的实验表明,上述解决方案可以从大规模数据集中高效发现web访问模式。
[Abstract]:By discovering useful access patterns in web log data, we can help us better realize web personalization and web structure readjustment. At present, web log mining is still in the stage of further exploration. Mature theories and methods have not been fully formed and need further research. The traditional association rules algorithm can no longer deal with the growing volume of data and various data types. The information extracted by frequency based web log mining technology is not very effective for the end users. This paper studies the web access pattern mining algorithm based on fuzzy clustering. First of all. In order to measure the similarity and dissimilarity between different user access patterns, the equal length fuzzy vector is used to describe the user browsing time, in which each element is either zero. Or it is a fuzzy variable expressed in fuzzy language, which can not only reflect whether the user has visited the web page. It can also describe the browsing time of users on the web. The browsing time of data is represented by fuzzy language variables, which is in line with the normal way of thinking. And the slight difference between access time and access time can be ignored, because there is no clear boundary between class and class. Therefore, fuzzy rough K-Means algorithm is used to cluster these user patterns that represent user browsing characteristics. Experiments show that this method can effectively reduce the time complexity and improve the accuracy of the system. Considering the frequency of web page access, access time can reflect the interest of users, a new method is proposed to solve the problem of web page access pattern extraction. This method can extract web access patterns efficiently on the basis of clustering. The schema values are calculated by a user-defined evaluation function. The above solutions can efficiently discover web access patterns from large-scale datasets.
【学位授予单位】:山西师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP393.09
【相似文献】
相关期刊论文 前10条
1 王宇新;田佳;郭禾;吴树朋;杨元生;;应用模糊方法的设计模式挖掘策略研究[J];计算机工程与应用;2010年02期
2 陆亿红;王子仁;黄燕;;适合稀少空间特征的同位模式挖掘算法[J];浙江工业大学学报;2007年04期
3 郭燕萍;辛伯宇;;高选票例外模式挖掘研究与实现[J];电脑开发与应用;2007年08期
4 徐显九;杨燕;岳爱萍;;高效的用户移动模式挖掘方法[J];计算机应用研究;2007年09期
5 李帆;夏士雄;张磊;;基于模糊理论的不确定轨迹模式挖掘[J];微电子学与计算机;2011年08期
6 李中元;边馥苓;;空间同位模式挖掘研究进展[J];地理空间信息;2013年06期
7 邢东山,沈钧毅,宋擒豹;用户浏览偏爱模式挖掘算法的研究[J];西安交通大学学报;2002年04期
8 刘洪辉;吴岳芬;;用户行为模式挖掘问题的研究[J];计算机技术与发展;2006年05期
9 付晓翠;许盈;车路;;游戏访问模式挖掘的研究与应用[J];郑州大学学报(理学版);2007年04期
10 颜一鸣;郭鑫;李仁发;;一种非确定树模式挖掘算法[J];计算机工程与应用;2011年15期
相关会议论文 前10条
1 王肃;杜军平;高田;;基于本体与知识背景的模式挖掘框架研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
2 缪裕青;尹东;;分布式存储结构的频繁闭合模式挖掘并行算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
3 王淼;尚学群;谢华博;李战怀;;行常量差异共表达基因模式挖掘算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
4 刘玉葆;蔡嘉荣;印鉴;黄志兰;;基于最大访问模式挖掘的数据库异常行为检测[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 陆叶;王丽珍;陈红梅;赵丽红;;基于可能世界的不确定空间co-location模式挖掘研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王丽珍;陆叶;陈红梅;肖清;;基于前缀树结构的空间co-location模式挖掘算法研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 胡伟成;曹三省;李丹;;一种基于QPop增量时域分割升维的媒体内容应用模式挖掘改进算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 薛丹;李德敏;裴仁林;;移动计算中基于PrefixSpan算法的用户移动模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 宋国杰;马帅;唐世渭;杨冬青;;基于模式挖掘的交通预测模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 夏庆;马元元;孙志挥;;路径遍历模式挖掘方法的改进[A];第十六届全国数据库学术会议论文集[C];1999年
相关重要报纸文章 前1条
1 辛苑薇;谁将分享“大数据”的智慧盛宴?[N];21世纪经济报道;2012年
相关博士学位论文 前7条
1 Shafqat Ali Shad;移动用户轨迹与行为模式挖掘方法研究[D];中国科学技术大学;2013年
2 钱烽;同位模式挖掘研究[D];浙江大学;2012年
3 刘勇;图模式挖掘技术的研究[D];哈尔滨工业大学;2010年
4 覃桂敏;复杂网络模式挖掘算法研究[D];西安电子科技大学;2012年
5 王乐;数据流模式挖掘算法及应用研究[D];大连理工大学;2013年
6 林耀进;多源环境中数据预处理与模式挖掘的研究[D];合肥工业大学;2014年
7 曾海泉;时间序列挖掘与相似性查找技术研究[D];复旦大学;2003年
相关硕士学位论文 前10条
1 张子瀚;面向大数据的高效用模式挖掘方法研究[D];北方工业大学;2016年
2 张刚领;一种基于团的闭频繁Co-location模式挖掘方法[D];云南大学;2016年
3 江万国;基于领域驱动的空间高效用Co-location模式挖掘[D];云南大学;2016年
4 吴锡宇;基于约束的城市co-location模式挖掘[D];云南大学;2016年
5 冯鲁桥;基于C/C++代码库的API调用模式挖掘研究及实现[D];电子科技大学;2016年
6 王敏;云计算环境下时空轨迹聚集模式挖掘算法研究[D];南京师范大学;2016年
7 艾双双;不确定图数据的频繁子图模式挖掘算法的研究与实现[D];东北大学;2014年
8 刘晓庆;条件差异模式挖掘算法研究[D];大连理工大学;2016年
9 刘潇;基于模糊聚类的Web访问模式挖掘[D];山西师范大学;2016年
10 岳爱萍;基于时间的用户移动模式挖掘研究[D];西南交通大学;2008年
,本文编号:1375530
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1375530.html