基于Web爬虫的课程推荐系统研究
本文关键词:基于Web爬虫的课程推荐系统研究
更多相关文章: Scrapy框架 中文分词 关键词抽取 新闻热点提取 课程推荐系统
【摘要】:本文以《基于云平台的网络影视在线教育培训系统》研究项目为背景,探索社会热点与网络教学相融合的新模式,实现根据最新热点推荐相关网络课程的目标。针对新闻内容的获取问题,本文重点对网络爬虫技术进行了分析和研究,设计并实现了基于Scrapy爬虫框架的新闻站点抓取方案,达到快速抓取结构化新闻数据的目的。针对海量新闻的持久化存储问题,本文应用基于Hash的Mongo DB分片技术,实现多台服务器间的负载均衡,有效缓解了数据库服务器的存储压力。对于社会关注热点的提取问题,应用基于TF-IDF算法的关键词抽取方法实现对新闻特征的提取,并综合新闻自身权重及关键词TFIDF值,实现热点获取并保证其准确性及有效性。针对相关课程推荐的问题,利用Solr搜索引擎技术,根据热点检索教学平台中的相关主题课程并做推荐,实现热点与网络教育的有机结合,最终达到调动学生积极性并提高教学效果的目的。论文首先详细阐述了网络爬虫、No SQL数据库、文本分析等相关技术。其次,根据课程推荐系统的项目需求,对Scrapy爬虫框架进行了深入研究,对Redis和Mongo DB数据库进行了重点分析,设计并实现了针对新闻门户网站的定向爬虫。然后,对热点提取方法及Solr搜索引擎技术展开了探索,完成了对新闻热点的获取,并实现热点相关课程的推荐。最后,对系统做了整体测试及结果分析,并对论文中的各项工作进行了总结。
【关键词】:Scrapy框架 中文分词 关键词抽取 新闻热点提取 课程推荐系统
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-13
- 1.1 本论文研究的目的和意义9
- 1.2 国内外研究现状及发展趋势9-11
- 1.3 研究目标与主要研究内容11-12
- 1.4 论文组织12-13
- 第二章 系统设计与相关技术概述13-24
- 2.1 基于WEB爬虫的课程推荐系统模块设计13-14
- 2.2 网络爬虫14-19
- 2.2.1 通用爬虫框架研究15-16
- 2.2.2 网络爬虫分类16-17
- 2.2.3 开源爬虫框架比较17-19
- 2.3 NOSQL技术19-20
- 2.4 文本分析20-22
- 2.4.1 文本分词20-21
- 2.4.2 内容特征选取21-22
- 2.5 全文搜索引擎技术22-24
- 第三章 基于SCRAPY的新闻爬虫实现24-44
- 3.1 SCRAPY爬虫框架24-28
- 3.1.1 SCRAPY框架组成24-26
- 3.1.2 SCRAPY数据处理流程解析26-27
- 3.1.3 WEB页面信息提取27-28
- 3.2 分布式存储技术28-32
- 3.2.1 REDIS内存数据库介绍28-29
- 3.2.2 MONGODB文档数据库研究29-31
- 3.2.3 爬虫数据分布式存储31-32
- 3.3 新闻爬虫实现32-43
- 3.3.1 MONGODB分布式部署33-36
- 3.3.2 SCRAPY定制36-38
- 3.3.3 项目管道定制38-39
- 3.3.4 新闻内容抓取39-43
- 3.4 本章小结43-44
- 第四章 新闻热点提取与课程推荐的实现44-54
- 4.1 中文分词算法研究44-46
- 4.1.1 基于TRIE树结构的分词算法44-45
- 4.1.2 HMM模型与VITERBI算法45-46
- 4.2 关键词抽取算法研究46-49
- 4.2.1 基于统计的TF-IDF算法46-48
- 4.2.2 TEXTRANK关键字生成算法48-49
- 4.3 新闻热点提取49-52
- 4.3.1 结合学科词典的关键词抽取49-51
- 4.3.2 融合新闻参数信息的热点发现51-52
- 4.4 基于SOLR的课程推荐52-53
- 4.5 本章小结53-54
- 第五章 系统测试54-59
- 5.1 系统测试方法54
- 5.2 实际系统运行结果分析54-58
- 5.2.1 分布式网络爬虫结果分析54-55
- 5.2.2 关键词抽取测试55-57
- 5.2.3 课程推荐结果分析57-58
- 5.3 系统测试结论58-59
- 结论59-60
- 参考文献60-63
- 攻读学位期间发表论文与研究成果清单63-64
- 致谢64
【相似文献】
中国期刊全文数据库 前10条
1 米可菲;张勇;邢春晓;蔚欣;;面向大数据的开源推荐系统分析[J];计算机与数字工程;2013年10期
2 脱建勇;王嵩;李秀;刘文煌;;精品课共享中的推荐系统框架与实现[J];计算机工程与设计;2006年17期
3 苏冠贤;张丽霞;林丕源;刘吉平;;生物信息学推荐系统的设计与实现[J];计算机应用研究;2007年05期
4 王改芬;;推荐系统研究综述[J];软件导刊;2007年23期
5 叶群来;;营销与网络推荐系统[J];电子商务;2007年10期
6 李媚;;个性化网络学习资源推荐系统研究[J];福建电脑;2008年12期
7 潘冉;姜丽红;;基于经济学模型的推荐系统的研究[J];计算机应用与软件;2008年03期
8 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期
9 刘小燕;陈艳丽;贾宗璞;沈记全;;基于增强学习的旅行计划推荐系统[J];计算机工程;2010年21期
10 曹畋;;智能推荐系统在知识浏览领域的应用[J];硅谷;2011年21期
中国重要会议论文全文数据库 前8条
1 张燕;李燕萍;;基于内容分析和点击率记录的混合音乐推荐系统[A];2009年通信理论与信号处理学术年会论文集[C];2009年
2 赵欣;寇纲;邬文帅;卢艳群;;基于时间密集性的推荐系统攻击检测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
3 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
4 王君;许洁萍;;层次音乐推荐系统的研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
5 潘宇;林鸿飞;杨志豪;;基于用户聚类的电子商务推荐系统[A];第三届学生计算语言学研讨会论文集[C];2006年
6 尤忠彬;陈越;张英;朱扬勇;;基于Web服务的技术转移平台推荐系统研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 王国霞;刘贺平;李擎;;二部图影射及其在推荐系统中的应用[A];第25届中国控制与决策会议论文集[C];2013年
8 王雪;董爱华;吴怡之;;基于RFID技术的智能服装推荐系统设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
中国重要报纸全文数据库 前2条
1 ;大数据如何“落地”[N];中国新闻出版报;2014年
2 本报记者 邹大斌;大数据:电商新武器[N];计算机世界;2012年
中国博士学位论文全文数据库 前10条
1 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年
2 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
3 杨东辉;基于情感相似度的社会化推荐系统研究[D];哈尔滨工业大学;2014年
4 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
5 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年
6 刘龙;一个能实现个性化实时路径推荐服务的推荐系统框架[D];中国科学技术大学;2014年
7 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年
8 刘士琛;面向推荐系统的关键问题研究及应用[D];中国科学技术大学;2014年
9 李方方;非独立同分布推荐系统研究[D];北京理工大学;2014年
10 李晓建;基于语义的个性化资源推荐系统中关键技术研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱孔真;基于云计算的电子商务智能推荐系统研究[D];武汉理工大学;2014年
2 郭敬泽;基于赋权评分和Dpark的分布式推荐系统研究与实现[D];天津理工大学;2015年
3 周俊宇;信息推荐系统的研究与设计[D];江南大学;2015年
4 李炜;基于电子商务平台的保险推荐系统的设计与实现[D];复旦大学;2013年
5 车丰;基于排序主题模型的论文推荐系统[D];大连海事大学;2015年
6 秦大路;基于因式分解机模型的上下文感知推荐系统研究[D];郑州大学;2015年
7 徐霞婷;动态路网监控与导航推荐系统的设计与实现[D];苏州大学;2015年
8 黄学峰;基于Hadoop的电影推荐系统研究与实现[D];南京师范大学;2015年
9 路小瑞;基于Hadoop平台的职位推荐系统的设计与实现[D];上海交通大学;2015年
10 李爱宝;基于组合消费行为分析的团购推荐系统的设计与实现[D];哈尔滨工业大学;2015年
,本文编号:622633
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/622633.html