当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式的新闻爬取和推荐系统的设计与实现

发布时间:2021-07-31 05:36
  基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一。智慧科学院旨在利用先进的大数据处理技术,研发各类热点技术、促进各团队/院所的科研合作,提高人才筛选与综合评价等,作为科研助手、合作参谋、人才猎手,全面助力科学院的科研、服务和人才工作,促进科学院精细化管理和业务升级。随着机器学习技术的不断发展和市场竞争的加剧,国内外市场上的新闻推荐类应用也越来越成熟和稳定。但是通用的新闻阅读和推荐应用,新闻来源是由新闻应用所属的企业负责的,用户无法对新闻来源提出进一步的定制需求,只能被动接受。本文所做的系统支持用户对感兴趣的新闻页面进行个性化定制,系统后台对用户的定制需求进行处理,将用户感兴趣的新闻来源添加到爬虫的数据源中,使用户更容易、更精确的获取感兴趣的新闻信息。同时本系统也为用户提供了信息检索服务,个性化推荐服务,让用户获取信息的难度进一步降低。本文的主要工作是根据用户对特定网站的需求定义(包括地址、关键字、推送时间等),利用网络爬虫抓取信息,为山东省科学院各级领导、业务科室、科研人员以网页、邮件等方式提供精准的信息检索和推送服务。依托大数据平台技术,搭建用户行... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:81 页

【学位级别】:硕士

【部分图文】:

基于分布式的新闻爬取和推荐系统的设计与实现


图2-1系统总体用例图??本系统有两种类型的用户,普通用户和管理员用户

新闻,个性化推荐,业务流程图,功能


基于内容的推荐算法(Content-based?Recommendations)根据用户喜欢喜欢的产品(本文中产品即为新闻),为用户推荐与他们历史喜欢的产品类产品。基于内容的推荐算法一般包括如下三个步骤:??产品的表示(Item?Representation):即如何表示每一条新闻。本文使用空间模型表示新闻,即每条新闻都用一个向量表示。具体来说本文使用主题LDA算法抽取新闻的主题分布向量,作为新闻的特征表示。??用户偏好学习(Profile?Learning):根据用户的历史数据学习用户对产品趣,表示用户特征。本文主要收集用户的新闻浏览记录对用户进行建模。??推荐生成(Recommendation?Generation):根据前两步得到的新闻特征和特征,设计推荐策略,为用户推荐新闻。??为了进行产品表示,获得新闻特征,需要依赖分布式爬虫软件建立新闻语。为了对用户兴趣建模,需要构建用户行为日志收集模块,收集用户的行为。个性化推荐功能的简要流程图如图2-2所示:??搏

用例图,用例图,功能,检索功能


?山东大学硕士学位论文???2.3.2新闻检索功能??新闻检索功能是本系统的另一个重要功能。新闻类应用一般都包含新闻检索??功能,以满足用户的搜索需求,提高用户体验。本系统使用开源搜索引擎软件Solr??提供检索功能,检索功能的用例图如图2-3所示:??

【参考文献】:
期刊论文
[1]基于文本密度模型的Web正文抽取[J]. 朱泽德,李淼,张健,陈雷,曾新华.  模式识别与人工智能. 2013(07)



本文编号:3312875

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3312875.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6bc7f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com