第四方就业信息推荐系统的研究与实现
发布时间:2017-05-26 09:03
本文关键词:第四方就业信息推荐系统的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着Web2.0的不断发展和流行,互联网上的信息量急剧增加,用户很容易迷失在信息的海洋中。网络招聘信息,作为互联网信息的一种,广泛充斥在互联网中。而且,,就业信息网站林林总总、真假难辨。面对海量信息,信息检索和信息过滤是当前两种主要的解决方案。其中,信息检索的结果是大众化的,只要输入的关键词一样,搜索结果就相同,并且搜索结果的数据量可能仍然很大。而信息过滤则能有效的弥补信息检索的不足,通过个性化定制的方法进一步提升用户体验度。常用的信息过滤方式为个性化推荐。因此,本文在就业信息的处理中充分结合信息检索和信息过滤这两种方式,为求职者尽可能简洁高效的提供真实有用的信息。此外,本文结合一些Web开发的相关技术,利用Mysql、SolrCloud等开源软件设计并实现了第四方就业信息推荐系统。 论文主要工作包括: ①实现就业信息的抓取、解析和清洗。本文首先采用网络爬虫的方式从各大第三方招聘网站抓取信息。然后对获取的就业信息进行清洗和格式整理。最后,将所有格式化的就业信息映射到一个标准的行业分类目录上,形成一个分类一致的就业信息数据集。 ②实现就业信息的分布式存储。本文采用Mysql数据库集群的数据存储方案,通过负载均衡、数据切分、读写分离等方法,保证数据库并发读写效率和分布式数据库事务的正确性。 ③搭建分布式全文检索系统。本文采用SolrCloud作为分布式全文检索引擎,Zookeeper作为搜索引擎集群监视器和配置文件管理器,搭建了一个高性能、高可用的分布式全文检索系统。 ④实现就业信息的个性化推荐。利用用户的行为数据,基于用户的个性化推荐算法为用户推荐感兴趣的工作;利用评分可信度和Hadoop框架,研究和设计了基于评分可信度的UserCF并行推荐算法。
【关键词】:全文检索 并行化 可信度 推荐系统 高性能
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 1 绪论9-14
- 1.1 研究背景和意义9
- 1.2 国内外研究现状9-12
- 1.2.1 推荐系统的国内外研究现状9-11
- 1.2.2 高性能 Web 开发技术的国内外研究现状11-12
- 1.3 本文的主要工作12
- 1.4 论文的组织结构12-13
- 1.5 本章小结13-14
- 2 相关技术介绍和研究14-28
- 2.1 集群概述14
- 2.1.1 负载均衡技术14
- 2.1.2 集群中的高可用技术14
- 2.2 Web 应用程序和 Web 服务器的优化14-16
- 2.2.1 代码优化14-15
- 2.2.2 SQL 语句优化15
- 2.2.3 高性能 Web 服务器15-16
- 2.3 分布式数据库技术16-18
- 2.3.1 分布式数据库技术16
- 2.3.2 单表数据量过大的处理策略16-17
- 2.3.3 数据库切分策略17-18
- 2.3.4 数据库中间层18
- 2.4 全文搜索技术研究18-20
- 2.4.1 倒排索引技术18
- 2.4.2 中文分词技术18-19
- 2.4.3 Solr 简介19
- 2.4.4 Solr 架构19-20
- 2.4.5 SolrCloud 分布式搜索方案20
- 2.5 Hadoop 分布式平台20-24
- 2.5.1 Hadoop 技术20-21
- 2.5.2 MapReduce 计算模型21-22
- 2.5.3 HDFS 分布式文件系统22-24
- 2.6 推荐系统介绍24-26
- 2.6.1 关联规则推荐算法24-25
- 2.6.2 协同过滤推荐算法25-26
- 2.7 就业信息和用户行为数据的收集、整理26
- 2.7.1 用户行为数据26
- 2.7.2 语义相似度计算26
- 2.8 本章小结26-28
- 3 第四方就业信息推荐系统的研究与设计28-36
- 3.1 基于用户(求职者)的协同过滤推荐28-29
- 3.1.1 用户相似度计算28-29
- 3.1.2 最终推荐结果的产生29
- 3.2 UserCF 算法存在的问题29
- 3.3 第四方就业信息推荐系统的设计29-35
- 3.3.1 总体架构29-30
- 3.3.2 评分的可信度计算30-31
- 3.3.3 冷启动问题的解决方案31-32
- 3.3.4 基于 MapReduce 的推荐算法并行化32-35
- 3.4 本章小结35-36
- 4 第四方就业信息推荐系统的实现36-71
- 4.1 系统需求分析及整体设计36-37
- 4.1.1 功能模块36-37
- 4.1.2 系统结构图37
- 4.2 Tomcat 应用服务器集群搭建37-40
- 4.3 多线程网络爬虫抓取网页方案40-44
- 4.3.1 网络工作信息爬取模式40-41
- 4.3.2 ExecutorService+Task 多线程编程模型41-42
- 4.3.3 解析 HTML 文件42-43
- 4.3.4 网页信息分析43-44
- 4.4 网站分类目录的整合44-46
- 4.4.1 标签相似度计算-Xsimilarity44
- 4.4.2 目录映射算法44-46
- 4.5 Mysql 数据库集群的设计46-48
- 4.5.1 Mysql 分区表简介46-47
- 4.5.2 数据库设计拓扑图47-48
- 4.6 SolrCloud 分布式搜索服务的设计48-52
- 4.6.1 搜索关键词智能提示49-50
- 4.6.2 索引增量导入50
- 4.6.3 中文分词器 IK Analyzer 的配置50
- 4.6.4 分布式搜索请求50-51
- 4.6.5 搜索容错能力51
- 4.6.6 基于地理位置的搜索51-52
- 4.7 用户行为收集52-53
- 4.8 定时任务53
- 4.9 关联规则的推荐算法实现53-55
- 4.9.1 Apriori 算法53-54
- 4.9.2 Apriori 算法实现54-55
- 4.10 协同过滤推荐的算法实现55-57
- 4.10.1 算法主要步骤55-57
- 4.11 系统优化57-59
- 4.11.1 Apache 优化57-58
- 4.11.2 Tomcat 优化58-59
- 4.11.3 Solr 优化59
- 4.12 Tomcat 服务器集群的测试和分析59-64
- 4.13 系统展示64-70
- 4.14 本章小结70-71
- 5 总结与展望71-72
- 5.1 总结71
- 5.2 展望71-72
- 致谢72-73
- 参考文献73-76
- 附录76
- A. 作者在攻读学位期间发表的论文目录76
- B. 作者在攻读学位期间取得的科研成果目录76
【参考文献】
中国期刊全文数据库 前10条
1 谷琼,朱莉,袁红星;分布式数据库的设计与信息查询[J];电脑知识与技术;2005年08期
2 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期
3 郭洪海;姜锦虎;蔡涵;;C2C电子社区成员信誉值的计算模型研究[J];管理学报;2009年08期
4 伍之昂;庄毅;王有权;曹杰;;基于特征选择的推荐系统托攻击检测算法[J];电子学报;2012年08期
5 肖凌,刘继红,姚建初;分布式数据库系统的研究与应用[J];计算机工程;2001年01期
6 张新猛;蒋盛益;;基于加权二部图的个性化推荐算法[J];计算机应用;2012年03期
7 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期
8 李萍;;浅谈TOMCAT之性能优化[J];科技情报开发与经济;2011年12期
9 张剑,王炎修,刘倩;关于分布式数据库事务处理机制的探讨[J];山东科技大学学报(自然科学版);2003年02期
10 王培吉;赵玉琳;吕剑峰;;基于Apriori算法的关联规则数据挖掘研究[J];统计与决策;2011年23期
本文关键词:第四方就业信息推荐系统的研究与实现,由笔耕文化传播整理发布。
本文编号:396295
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/396295.html