当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Web爬虫的课程推荐系统研究

发布时间:2017-08-05 01:25

  本文关键词:基于Web爬虫的课程推荐系统研究


  更多相关文章: Scrapy框架 中文分词 关键词抽取 新闻热点提取 课程推荐系统


【摘要】:本文以《基于云平台的网络影视在线教育培训系统》研究项目为背景,探索社会热点与网络教学相融合的新模式,实现根据最新热点推荐相关网络课程的目标。针对新闻内容的获取问题,本文重点对网络爬虫技术进行了分析和研究,设计并实现了基于Scrapy爬虫框架的新闻站点抓取方案,达到快速抓取结构化新闻数据的目的。针对海量新闻的持久化存储问题,本文应用基于Hash的Mongo DB分片技术,实现多台服务器间的负载均衡,有效缓解了数据库服务器的存储压力。对于社会关注热点的提取问题,应用基于TF-IDF算法的关键词抽取方法实现对新闻特征的提取,并综合新闻自身权重及关键词TFIDF值,实现热点获取并保证其准确性及有效性。针对相关课程推荐的问题,利用Solr搜索引擎技术,根据热点检索教学平台中的相关主题课程并做推荐,实现热点与网络教育的有机结合,最终达到调动学生积极性并提高教学效果的目的。论文首先详细阐述了网络爬虫、No SQL数据库、文本分析等相关技术。其次,根据课程推荐系统的项目需求,对Scrapy爬虫框架进行了深入研究,对Redis和Mongo DB数据库进行了重点分析,设计并实现了针对新闻门户网站的定向爬虫。然后,对热点提取方法及Solr搜索引擎技术展开了探索,完成了对新闻热点的获取,并实现热点相关课程的推荐。最后,对系统做了整体测试及结果分析,并对论文中的各项工作进行了总结。
【关键词】:Scrapy框架 中文分词 关键词抽取 新闻热点提取 课程推荐系统
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 绪论9-13
  • 1.1 本论文研究的目的和意义9
  • 1.2 国内外研究现状及发展趋势9-11
  • 1.3 研究目标与主要研究内容11-12
  • 1.4 论文组织12-13
  • 第二章 系统设计与相关技术概述13-24
  • 2.1 基于WEB爬虫的课程推荐系统模块设计13-14
  • 2.2 网络爬虫14-19
  • 2.2.1 通用爬虫框架研究15-16
  • 2.2.2 网络爬虫分类16-17
  • 2.2.3 开源爬虫框架比较17-19
  • 2.3 NOSQL技术19-20
  • 2.4 文本分析20-22
  • 2.4.1 文本分词20-21
  • 2.4.2 内容特征选取21-22
  • 2.5 全文搜索引擎技术22-24
  • 第三章 基于SCRAPY的新闻爬虫实现24-44
  • 3.1 SCRAPY爬虫框架24-28
  • 3.1.1 SCRAPY框架组成24-26
  • 3.1.2 SCRAPY数据处理流程解析26-27
  • 3.1.3 WEB页面信息提取27-28
  • 3.2 分布式存储技术28-32
  • 3.2.1 REDIS内存数据库介绍28-29
  • 3.2.2 MONGODB文档数据库研究29-31
  • 3.2.3 爬虫数据分布式存储31-32
  • 3.3 新闻爬虫实现32-43
  • 3.3.1 MONGODB分布式部署33-36
  • 3.3.2 SCRAPY定制36-38
  • 3.3.3 项目管道定制38-39
  • 3.3.4 新闻内容抓取39-43
  • 3.4 本章小结43-44
  • 第四章 新闻热点提取与课程推荐的实现44-54
  • 4.1 中文分词算法研究44-46
  • 4.1.1 基于TRIE树结构的分词算法44-45
  • 4.1.2 HMM模型与VITERBI算法45-46
  • 4.2 关键词抽取算法研究46-49
  • 4.2.1 基于统计的TF-IDF算法46-48
  • 4.2.2 TEXTRANK关键字生成算法48-49
  • 4.3 新闻热点提取49-52
  • 4.3.1 结合学科词典的关键词抽取49-51
  • 4.3.2 融合新闻参数信息的热点发现51-52
  • 4.4 基于SOLR的课程推荐52-53
  • 4.5 本章小结53-54
  • 第五章 系统测试54-59
  • 5.1 系统测试方法54
  • 5.2 实际系统运行结果分析54-58
  • 5.2.1 分布式网络爬虫结果分析54-55
  • 5.2.2 关键词抽取测试55-57
  • 5.2.3 课程推荐结果分析57-58
  • 5.3 系统测试结论58-59
  • 结论59-60
  • 参考文献60-63
  • 攻读学位期间发表论文与研究成果清单63-64
  • 致谢64

【相似文献】

中国期刊全文数据库 前10条

1 米可菲;张勇;邢春晓;蔚欣;;面向大数据的开源推荐系统分析[J];计算机与数字工程;2013年10期

2 脱建勇;王嵩;李秀;刘文煌;;精品课共享中的推荐系统框架与实现[J];计算机工程与设计;2006年17期

3 苏冠贤;张丽霞;林丕源;刘吉平;;生物信息学推荐系统的设计与实现[J];计算机应用研究;2007年05期

4 王改芬;;推荐系统研究综述[J];软件导刊;2007年23期

5 叶群来;;营销与网络推荐系统[J];电子商务;2007年10期

6 李媚;;个性化网络学习资源推荐系统研究[J];福建电脑;2008年12期

7 潘冉;姜丽红;;基于经济学模型的推荐系统的研究[J];计算机应用与软件;2008年03期

8 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期

9 刘小燕;陈艳丽;贾宗璞;沈记全;;基于增强学习的旅行计划推荐系统[J];计算机工程;2010年21期

10 曹畋;;智能推荐系统在知识浏览领域的应用[J];硅谷;2011年21期

中国重要会议论文全文数据库 前8条

1 张燕;李燕萍;;基于内容分析和点击率记录的混合音乐推荐系统[A];2009年通信理论与信号处理学术年会论文集[C];2009年

2 赵欣;寇纲;邬文帅;卢艳群;;基于时间密集性的推荐系统攻击检测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年

3 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年

4 王君;许洁萍;;层次音乐推荐系统的研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

5 潘宇;林鸿飞;杨志豪;;基于用户聚类的电子商务推荐系统[A];第三届学生计算语言学研讨会论文集[C];2006年

6 尤忠彬;陈越;张英;朱扬勇;;基于Web服务的技术转移平台推荐系统研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

7 王国霞;刘贺平;李擎;;二部图影射及其在推荐系统中的应用[A];第25届中国控制与决策会议论文集[C];2013年

8 王雪;董爱华;吴怡之;;基于RFID技术的智能服装推荐系统设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

中国重要报纸全文数据库 前2条

1 ;大数据如何“落地”[N];中国新闻出版报;2014年

2 本报记者 邹大斌;大数据:电商新武器[N];计算机世界;2012年

中国博士学位论文全文数据库 前10条

1 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年

2 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年

3 杨东辉;基于情感相似度的社会化推荐系统研究[D];哈尔滨工业大学;2014年

4 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年

5 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年

6 刘龙;一个能实现个性化实时路径推荐服务的推荐系统框架[D];中国科学技术大学;2014年

7 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年

8 刘士琛;面向推荐系统的关键问题研究及应用[D];中国科学技术大学;2014年

9 李方方;非独立同分布推荐系统研究[D];北京理工大学;2014年

10 李晓建;基于语义的个性化资源推荐系统中关键技术研究[D];武汉大学;2010年

中国硕士学位论文全文数据库 前10条

1 朱孔真;基于云计算的电子商务智能推荐系统研究[D];武汉理工大学;2014年

2 郭敬泽;基于赋权评分和Dpark的分布式推荐系统研究与实现[D];天津理工大学;2015年

3 周俊宇;信息推荐系统的研究与设计[D];江南大学;2015年

4 李炜;基于电子商务平台的保险推荐系统的设计与实现[D];复旦大学;2013年

5 车丰;基于排序主题模型的论文推荐系统[D];大连海事大学;2015年

6 秦大路;基于因式分解机模型的上下文感知推荐系统研究[D];郑州大学;2015年

7 徐霞婷;动态路网监控与导航推荐系统的设计与实现[D];苏州大学;2015年

8 黄学峰;基于Hadoop的电影推荐系统研究与实现[D];南京师范大学;2015年

9 路小瑞;基于Hadoop平台的职位推荐系统的设计与实现[D];上海交通大学;2015年

10 李爱宝;基于组合消费行为分析的团购推荐系统的设计与实现[D];哈尔滨工业大学;2015年



本文编号:622633

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/622633.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66e03***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com