基于Web使用挖掘的网站结构优化技术研究
本文选题:Web数据挖掘 + WAP算法 ; 参考:《电子科技大学》2016年硕士论文
【摘要】:网站在构建时,主要依靠网站设计开发人员的手工设计和一些先验经验进行网站结构的组织,但是由于网站的设计开发人员与用户对网站结构组织存在着不同的理解,这种主观性的差异将会导致用户在搜索其感兴趣有益的网页时往往会以更多的访问代价达到目标网页。同时,用户在搜寻目标网页时,会产生一些无关的页面点击行为,这将大大增加服务器负荷和网络的数据流量,更易造成网络阻塞,导致网络访问速度的下降,从而影响用户对站点的满意度。也就说,目标网页的最优期望定位直接决定了站点的服务质量。基于Web使用挖掘的网站结构优化技术就是通过挖掘Web日志,获得用户频繁访问路径,从而得到目标网页的最优定位,进而及时调整网站结构,使所有的用户都可以以很小的访问代价浏览站点,更有效地获取所需的信息。基于此,本文主要做了以下几个方面研究:1)为了使Web挖掘算法能够在Web日志中进行挖掘,对Web日志数据预处理过程进行了详细讨论,探讨了如何将Web日志记录转换成用户会话,得到用户访问序列。2)针对在海量数据情况下,单机进行数据预处理的效率将会愈来愈低的缺陷,提出一种基于Map Reduce的并行分布式处理办法,并将其在Hadoop平台上进行了实现。3)研究并分析了Web使用挖掘方面较为经典的关联规则算法及其特点,针对PLWAP算法在位置编码存在的缺陷,提出一种基于PLWAP算法改进的挖掘算法POCWAP算法,并结合IBM Quest Project数据进行实验,验证了其有效性与正确性,另外在与PLWAP算法的对比实验中,也直观反映出POCWAP在算法性能上较PLWAP算法有所提升。4)采用改进的挖掘算法POCWAP算法,结合成都康赛信息技术有限公司企业网站的Web日志数据,设计并开发出一套网站结构优化原型系统WSOS。重点介绍了该系统的系统框架,以及在Hadoop平台上实现Web日志预处理过程,展示预处理结果和模式发现结果,给出改进意见,最后对原型系统进行功能测试与分析。本文的最后给出了对全文工作的归纳和总结,探讨了下一步研究方向。
[Abstract]:When the website is built, it mainly relies on the manual design and some prior experience of the website designer to organize the website structure, but because the website designer and the user have different understanding to the website structure organization, This subjective difference will lead users to reach the target page with more access costs when searching useful pages. At the same time, when searching for the target web page, the user will produce some irrelevant page click behavior, which will greatly increase the server load and network data flow, and easily cause network congestion, resulting in a decrease in network access speed. This affects the user's satisfaction with the site. In other words, the optimal desired location of the target web page directly determines the quality of service of the site. Web site structure optimization technology based on Web usage mining is to obtain the user frequent access path by mining Web log, and then get the optimal location of the target web page, and then adjust the website structure in time. Enables all users to visit the site at a very small cost of access and more efficiently access the information they need. Based on this, this paper mainly studies the following aspects: 1) in order to make Web mining algorithm mining in Web logs, the preprocessing process of Web log data is discussed in detail, and how to convert Web log records into user sessions is discussed. Get user access sequence. 2) in the case of mass data, the efficiency of data preprocessing on single machine will be lower and lower. A parallel distributed processing method based on Map Reduce is proposed. This paper studies and analyzes the classical association rules algorithm and its characteristics in Web usage mining, aiming at the defects of PLWAP algorithm in position coding. An improved mining algorithm POCWAP algorithm based on PLWAP algorithm is proposed, and the validity and correctness of the algorithm are verified by combining the IBM Quest Project data. In addition, in comparison with the PLWAP algorithm, the proposed algorithm is compared with the PLWAP algorithm. Also intuitively reflects that POCWAP algorithm performance has improved compared with PLWAP algorithm. 4) using the improved mining algorithm POCWAP algorithm, combined with the Chengdu Kangsai Information Technology Co., Ltd. Enterprise website Web log data, Design and develop a website structure optimization prototype system WSOS. The system framework of the system and the process of Web log preprocessing on Hadoop platform are introduced in detail. The results of preprocessing and pattern discovery are presented. Finally, the function of the prototype system is tested and analyzed. At the end of this paper, the author summarizes the work of this paper and discusses the future research direction.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 程舒通;徐从富;;网站结构优化技术研究进展[J];计算机应用研究;2009年06期
2 徐t;;谈网站结构优化技术研究进展[J];东方企业文化;2010年03期
3 许波勇;;论企业网站的推广[J];电脑开发与应用;2011年06期
4 程舒通;;网站结构优化系统研究[J];科技传播;2011年24期
5 王春艳;张彦芳;;网站结构规划探讨[J];东方企业文化;2013年04期
6 ;1999百家顶级网站(一)[J];现代计算机;2000年01期
7 冯江,周毅刚;网站介绍(5)[J];新建筑;2001年05期
8 董玉民;青岛建筑工程学院网站的规划与建立[J];青岛建筑工程学院学报;2001年03期
9 胡纲;轻松更新自己的网站[Macromedia Contribute 1.0][J];个人电脑;2003年02期
10 王有为,汪定伟;基于关联系数的电子超市网站结构优化模型及算法复杂性分析[J];小型微型计算机系统;2004年04期
相关重要报纸文章 前10条
1 正言;企业网站步入互动通道[N];中国经营报;2007年
2 王兆成;旅行社网站服务功能探讨[N];中国旅游报;2008年
3 孟辉邋薛丽英;山西太原捣毁两个淫秽色情网站[N];中国新闻出版报;2008年
4 刘安;档案期刊与网络相互强身[N];中国档案报;2003年
5 何佳讯;撒“网”捕金[N];厂长经理日报;2001年
6 小新;用BlazingTools Instant Source工具 分析网站代码[N];中国电脑教育报;2004年
7 肖丹 陈兰琴 念红梅 陈正红;全球“最佳中之最佳”BtoB网站[N];国际经贸消息;2000年
8 本报记者 陈亮;Google重纳宝马德国网站[N];南方日报;2006年
9 飞飞;专业级的选择[N];中国电脑教育报;2002年
10 ;小生产与大市场 网上沟通[N];农民日报;2000年
相关硕士学位论文 前10条
1 贾小娟;基于交互理论的儿童网站引导性界面设计研究[D];河北工业大学;2015年
2 翁锦琳;基于Web使用挖掘的网站日志分析系统的研究与实现[D];福州大学;2014年
3 雷军;基于ThinkPHP框架的视频教学网站的设计和实现[D];湖北大学;2015年
4 刘明鸣;基于Web使用挖掘的网站结构优化技术研究[D];电子科技大学;2016年
5 芮文;基于开放链接模式的网站分类技术研究[D];东南大学;2015年
6 何坤鹏;基于本体的网站结构知识获取与分析[D];北京化工大学;2007年
7 杜华;电子商务网站结构优化模型与算法研究[D];首都师范大学;2009年
8 贾梦青;基于用户访问行为分析的网站分类研究[D];郑州大学;2009年
9 郜鑫博;基于关键资源的网站分类研究[D];哈尔滨工业大学;2009年
10 丛帅;基于关键资源的网站分类研究[D];哈尔滨工业大学;2010年
,本文编号:1987076
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1987076.html