当前位置:主页 > 管理论文 > 移动网络论文 >

某电子商务网站搜索日志分析系统设计与实现

发布时间:2018-04-25 09:32

  本文选题:日志分析 + 关键词 ; 参考:《中国科学院大学(中国科学院工程管理与信息技术学院)》2017年硕士论文


【摘要】:随着互联网的飞速发展以及网站数量的急剧增加,各网站对用户的争夺变得越来越激烈。为了更好的吸引和留住用户,需要更好地了解网站用户的使用行为,研究并分析搜索引擎的日志已成为在海量数据中获取用户行为有效数据的主要方法。基于此,为了更好地捕捉网站用户现实需求,了解用户意愿,本文设计和实现了一个网站搜索日志分析系统,从而帮助网站能更好的服务客户,并实现网站的快速发展。不同网站的搜索引擎针对的目标群体不同,本文的研究对象是某电子商务行业网站的搜索日志,通过建立日志分析系统来了解网站的用户行为模式,并挖掘其潜在需求。本系统设计中存在的最大困难之处在于如何搜索海量的日志数据,并实现搜索的高速性和准确性。主要研究内容如下:1,搜索日志的收集格式使用NCSA扩展日志格式,网站页面各分析项使用标签记录,使用开源Apache和Flume海量日志采集系统进行日志收集,使网站日志收集具有高效,准确,及时等特点,减轻了开发和测试的压力和负担,同时降低了风险。页面各统计项通过添加标签使分析日志具备了简单,准确的特点,降低了日志分析的负担。2,使用分布式处理平台Hadoop对日志进行分析,论文中主要分析基于HDFS文件存储和Map/Reduce的分布式处理的关键技术,对日志分析的实现过程进行了详细的描述和分析,通过使用Hadoop解决了海量日志分析处理的时效性和准确性的问题,并且代码开发非常简单,难度大幅度降低,项目推进的效率提升明显。3,设计并实现了用户行为的分析模型和用户信息质量的评分模型,通过这两个模型我们可以获知用户的网站浏览偏好以及用户信息的质量信息,以及关键词相关性的信息,建立了用户的偏好浏览模型和信息聚类模型,为信息聚合和个性化的搜索提供了数据支撑。最后,通过对上线系统运行两周后的结果分析,并且按照分析结果搜索重新进行排序设置以及聚类展示,很好地提升了使用效果,系统也达到了预期的目标。
[Abstract]:With the rapid development of the Internet and the rapid increase of the number of websites, the competition for users becomes more and more fierce. In order to attract and retain users better, it is necessary to understand the user's behavior better. The research and analysis of search engine log has become the main method to obtain the effective data of user behavior in the massive data. Based on this, this paper designs and implements a website search log analysis system in order to better capture the actual needs of website users and understand users' wishes, so as to help the website to better serve customers and realize the rapid development of the website. The search engine of different websites aims at different target groups. The research object of this paper is the search log of a website in an electronic commerce industry. Through the establishment of log analysis system, we can understand the user behavior pattern of the website and mine its potential demand. The biggest difficulty in the design of this system is how to search the massive log data and realize the high speed and accuracy of the search. The main research contents are as follows: the search log collection format uses NCSA extended log format, the analysis items of website pages use label recording, and the open source Apache and Flume massive log collection system are used for log collection, which makes the website log collection efficient. Accurate, timely and other characteristics, reduce the development and testing of the pressure and burden, while reducing the risk. Each statistical item on the page has simple and accurate features by adding tags, and reduces the burden of log analysis. 2. The distributed processing platform Hadoop is used to analyze the log. In this paper, the key technologies of distributed processing based on HDFS file storage and Map/Reduce are analyzed, and the implementation process of log analysis is described and analyzed in detail. Through the use of Hadoop to solve the problem of timeliness and accuracy of massive log analysis and processing, and the code development is very simple, the difficulty is greatly reduced, The efficiency of the project is improved obviously. 3. The analysis model of user behavior and the scoring model of user information quality are designed and implemented. Through these two models, we can get the user's preference for browsing website and the quality information of user information. The user preference browsing model and information clustering model are established, which provide data support for information aggregation and personalized search. Finally, by analyzing the results of the on-line system after two weeks' running, and reordering and clustering display according to the analysis result search, the system improves the use effect well, and the system also achieves the expected goal.
【学位授予单位】:中国科学院大学(中国科学院工程管理与信息技术学院)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.3

【相似文献】

相关期刊论文 前10条

1 文娟,薛永生,段江娇,王劲波;基于关联规则的日志分析系统的设计与实现[J];厦门大学学报(自然科学版);2005年S1期

2 张晓刚;潘久辉;;MS SQL Server 2000日志分析方法的研究与实现[J];计算机工程与设计;2006年19期

3 李春林;周根鸿;张文体;;重视日志审计确保数据安全[J];医学信息;2007年10期

4 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期

5 黄海隆;陈赛娉;;计算机日志分析与管理方法的研究[J];大众科技;2006年07期

6 郑毅;;基于日志分析的网络IDS研究[J];襄樊学院学报;2008年11期

7 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期

8 邹先霞;贾维嘉;潘久辉;;基于数据库日志的变化数据捕获研究[J];小型微型计算机系统;2012年03期

9 罗新;;防火墙日志分析系统的设计与实现[J];计算机时代;2012年02期

10 姜良华;崔建明;;Serv-U FTP服务器日志分析系统设计与实现[J];电脑知识与技术;2010年28期

相关会议论文 前10条

1 马辰;武斌;;一种基于攻击事件图的蜜网日志分析方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年

2 周涛;;基于数据挖掘的入侵检测日志分析技术研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年

3 陈晨;郑康锋;;一种基于支持向量机的蜜网系统日志分析方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

4 刘莉;;基于多协议技术的日志集中管理安全方案[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

5 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年

6 闫龙川;王怀宇;李枫;毛一凡;;基于Hadoop的邮件日志分析与研究[A];2012电力行业信息化年会论文集[C];2012年

7 陈庆章;王磊;毛科技;戴国勇;;基于防火墙日志的在线攻击侦查系统的设计与实现(英文)[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

8 王振亚;武斌;;基于MFI-WT算法的蜜网日志分析方法[A];第十七届全国青年通信学术年会论文集[C];2012年

9 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

10 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

相关重要报纸文章 前10条

1 中航工业南方航空工业集团(有限)公司科技与信息部 邹沪湘;分析日志识别暴力破解[N];计算机世界;2013年

2 ;日志分析中的五个误区[N];网络世界;2004年

3 陈代寿;网管的四两拨千斤[N];中国计算机报;2004年

4 IBM大数据专家 James Kobielus 范范 编译;大数据日志分析借机器学习腾飞[N];网络世界;2014年

5 《网络世界》评测实验室 于洋;用好Web日志[N];网络世界;2004年

6 重庆 航行者;IIS的安全[N];电脑报;2002年

7 河南工业职业技术学院 邱建新;监测Squid日志的五种方法[N];计算机世界;2005年

8 shotgun;入侵检测初步(上)[N];电脑报;2001年

9 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年

10 覃进文;在Windows 2000&&2003下快速安装Webalizer[N];中国电脑教育报;2003年

相关博士学位论文 前3条

1 饶翔;基于日志的大规模分布式软件系统可信保障技术研究[D];国防科学技术大学;2011年

2 曹志波;基于日志的任务建模及调度优化的研究[D];华南理工大学;2014年

3 胡蓉;WEB日志和子空间聚类挖掘算法研究[D];华中科技大学;2008年

相关硕士学位论文 前10条

1 张天生;日志采集与分析在Web网站中的设计与实现[D];上海交通大学;2015年

2 周海靖;日志大数据分析平台技术研究[D];山东大学;2015年

3 赖特;网络安全设备日志融合技术研究[D];电子科技大学;2015年

4 董妍妍;基于Hadoop的Teradata数据仓库日志分析系统的设计与实现[D];南京大学;2014年

5 李名弈;IPTVQOS日志分析方法研究[D];复旦大学;2013年

6 刘季函(Liu,Chi Han);基于Spark的网络日志分析系统的设计与实现[D];南京大学;2014年

7 李荣荣;基于Hadoop平台的日志分析系统[D];复旦大学;2013年

8 周云斌;基于主机的日志大数椐分析及安全性检查[D];大连理工大学;2015年

9 张迪;基于NoSQL的大规模Web日志分析系统的设计与实现[D];复旦大学;2013年

10 潘宇轩;基于Django的日志分析系统的设计与实现[D];南京大学;2014年



本文编号:1800770

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1800770.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bfc7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com