地学数据共享网用户Web行为预测及数据推荐方法
发布时间:2019-12-03 03:38
【摘要】:网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:(1)地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;(2)对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;(3)通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。
本文编号:2569044
【相似文献】
相关硕士学位论文 前2条
1 马莹莹;微博用户转发行为及情感预测研究[D];哈尔滨工业大学;2015年
2 王千;基于视频的篮球持球队员行为预测研究[D];中南大学;2012年
,本文编号:2569044
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2569044.html