基于Hive的海量搜索日志分析系统研究
本文选题:Hadoop + MapReduce ; 参考:《计算机应用研究》2013年11期
【摘要】:针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题,提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理,对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。
[Abstract]:Aiming at the scalability of traditional distributed model in parallel processing of mass log and the difficulty of programming parallel programs, a Hive based mechanism for analyzing Web mass search log is proposed. Using HQL language, Hadoop distributed file system (HDFS) and MapReduce programming mode, the massive search log is analyzed and processed, and the search behavior of users is analyzed and studied. The analysis results of query hotspots, user hits and URLs, and the analysis results of query sessions are instructive to search engine sorting algorithm and system optimization.
【作者单位】: 大连理工大学计算机学院;
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 王川;王大玲;于戈;马海涛;刘鑫钢;;基于用户行为模型的搜索引擎[J];计算机工程;2008年04期
2 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
【共引文献】
相关期刊论文 前10条
1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
2 宋平平;;基于数据挖掘的智能入侵检测系统模型及实现[J];安徽工程科技学院学报(自然科学版);2006年03期
3 焦亚冰;;教学评价数据挖掘中的关联规则分析与设计[J];辽宁科技大学学报;2010年03期
4 孙娟;张秀梅;;浅谈数据挖掘理论与技术[J];办公自动化;2008年16期
5 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
6 安颖;;基于Apriori算法的兴趣集加权关联规则挖掘[J];北京联合大学学报(自然科学版);2008年04期
7 杨晓;张迎新;;Apriori算法在消费市场价格分析中的研究与应用[J];北京工商大学学报(自然科学版);2009年03期
8 演克武;张磊;孙强;;决策树分类法中ID3算法在航空市场客户价值细分中的应用[J];商业研究;2008年03期
9 杨玉;;KDD在零售业客户关系管理中的应用分析研究[J];商业研究;2008年12期
10 裘立波;姜元春;林文龙;;电子商务环境下捆绑商品研究[J];商业研究;2009年09期
相关会议论文 前10条
1 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
2 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 刘智涛;;数据挖掘中的关联规则浅析[A];甘肃成人教育协会2008年年会论文集[C];2008年
4 刘大为;冯径;孙春风;刘子俊;;基于时间序列分析的气象观探测设备状态预测研究[A];2009第五届苏皖两省大气探测、环境遥感与电子技术学术研讨会专辑[C];2009年
5 原姝;;售后维修服务系统的智能化流程研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 孙永道;邵慧莹;仝彦丽;;浅析电子商务中的数据挖掘技术[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 李志云;周国祥;;基于FP-Growth的关联规则挖掘算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 林丹龙;孙宇锋;赵广燕;;基于仿真的电路故障模式识别研究[A];2009第十三届全国可靠性物理学术讨论会论文集[C];2009年
10 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
相关博士学位论文 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 张晓辉;云理论和数据挖掘在水上安全分析中的应用[D];大连海事大学;2011年
4 屈岚;三种不同肤色人种冠心病中医证型临床流行病学调查[D];湖南中医药大学;2011年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
6 卢又燃;放射科随访数据库建立与粗糙集方法辅助诊断胶质瘤分级的应用分析[D];复旦大学;2009年
7 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
8 金海浩;五行相生间接补法古代应用规律研究[D];南京中医药大学;2011年
9 周雪明;基于古今医案数据分析的眩晕病证治规律研究[D];黑龙江中医药大学;2011年
10 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
相关硕士学位论文 前10条
1 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 解保忠;计算机在矽肺病早期诊断及预测中的应用研究[D];哈尔滨工程大学;2010年
4 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
5 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
6 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
7 李丽;基于数据挖掘的用户缴费信用风险评估研究[D];哈尔滨工程大学;2010年
8 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
9 赵晓燕;基于多索引的高维时间序列子序列检索研究[D];大连理工大学;2010年
10 靳小川;模糊聚类算法在大学生心理健康分析中的应用研究[D];辽宁工程技术大学;2010年
【相似文献】
相关期刊论文 前10条
1 陈勇飞;王羡欠;;Web日志数据挖掘技术及应用[J];硅谷;2009年04期
2 张国鹏;基于事务的Web日志挖掘在远程教育中的应用[J];现代计算机;2004年08期
3 张丽伟;张晶;;基于关联规则的Web日志挖掘算法研究[J];电脑编程技巧与维护;2011年16期
4 郭振英;赵文兵;魏育辉;;电子资源日志统计系统分析与设计[J];现代图书情报技术;2008年09期
5 黄晓伟;章慧云;;基于概率关联图挖掘日志中关联规则[J];硅谷;2008年22期
6 吴冰,赵林度;基于粗糙集理论的Web挖掘模型(英文)[J];Journal of Southeast University;2002年01期
7 吴瑛;王秋生;;用于挖掘Web日志的数据仓库系统实现[J];计算机与信息技术;2007年09期
8 张小刚;;电子商务中数据挖掘方法浅析[J];商场现代化;2008年34期
9 刘炜;陈俊杰;;一种Web使用模式挖掘模型的设计[J];计算机应用研究;2007年03期
10 王洪伟;王彦丽;;应用Web日志挖掘技术改善企业客户关系[J];计算机与现代化;2007年10期
相关会议论文 前8条
1 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 吴雯雯;王浩;杨静;;基于用户访问模式的个性化推荐算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
4 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
5 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
6 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
7 郑启龙;王昊;吴晓伟;房明;;HPMR:多核集群上的高性能计算支撑平台[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
8 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
相关重要报纸文章 前3条
1 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年
2 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
相关博士学位论文 前5条
1 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
2 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
3 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
4 霍旭光;基于云计算的大规模地形数据处理方法的研究[D];中国地质大学(北京);2013年
5 袁培森;基于LSH的Web数据相似性查询研究[D];复旦大学;2011年
相关硕士学位论文 前10条
1 李志娟;MapReduce仿真及Hadoop公平调度算法研究[D];哈尔滨工程大学;2013年
2 陈艳金;MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D];华南理工大学;2011年
3 杨婷;基于MapReduce的好友推荐系统的研究与实现[D];北京邮电大学;2013年
4 程锦佳;基于Hadoop的分布式爬虫及其实现[D];北京邮电大学;2010年
5 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
6 黄钟元;Hadoop平台下的关系数据库查询与实现[D];复旦大学;2011年
7 朱晨杰;MapReduce作业组合系统的研究与实现[D];上海交通大学;2013年
8 王凯;MapReduce集群多用户作业调度方法的研究与实现[D];国防科学技术大学;2010年
9 邹彩辉;基于Hadoop平台的自适应局部超平面K近邻算法的研究[D];华南理工大学;2011年
10 刘彤;基于Hadoop的数据分析系统设计和实现[D];北京邮电大学;2012年
,本文编号:1996987
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1996987.html