当前位置:主页 > 社科论文 > 新闻传播论文 >

在线热点新闻推荐系统研究和实现

发布时间:2020-10-23 05:02
   随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。新闻阅读也随着互联网的进步改变了从订阅纸质报纸的传统模式到访问互联网成千上万的新闻。目前,互联网上每天产生大量新闻数据。新闻聚集网站,如谷歌和百度新闻,从各个网站收集新闻并聚合。对于这些网站,如何向用户推荐感兴趣的新闻成为关键性的问题。本文以国内外主要中文新闻网站为研究对象,针对新闻网站中的大量新闻,完成了新闻文本采集以及热点新闻推荐系统设计与实现。其主要工作和贡献如下:(1)首先采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源以及新闻所在版块。本文讨论我们所实现的基于Hadoop分布式平台的新闻数据采集并预处理系统。该系统将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。(2)对于热点事件,不同新闻媒体会争相报道,因此,来自不同新闻网站的热点新闻标题会存在一定的相似性。基于新闻标题的这一特点,提出了基于标题的热点新闻推荐算法。首先对新闻标题进行分词等预处理,然后使用朴素贝叶斯模型和SVM对新闻进行文本分类,最终将分类结果作为推荐内容。实验结果表明,使用朴素贝叶斯方法优于基于SVM方法,基于朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率可以达到92.5%。(3)本文讨论基于标题的热点新闻推荐算法中标题存在的缺陷,进一步提出了基于文本摘要的热点新闻推荐算法。首先采用Text Rank以及复杂网络划分方法从新闻内容中提取出新闻摘要。然后,在热点新闻推荐算法中,使用新闻文本摘要代替新闻标题。最终,使用朴素贝叶斯模型与SVM对新闻进行文本分类,并将分类结果作为推荐内容。实验结果表明,基于文本摘要的朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率达到94%。这表明基于新闻摘要的热点新闻推荐结果更为准确。(4)本文基于文本摘要的新闻推荐算法所实现的热点新闻推荐系统于2014年3月份开始在杭州市政府正式运营,为杭州市政府公务员推荐热点新闻,用户反映良好。
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2015
【中图分类】:TP391.3;G210.7
【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 推荐系统
        1.2.1 推荐系统定义
        1.2.2 用户模块
        1.2.3 推荐对象模型
    1.3 推荐系统算法分类
        1.3.1 基于内容的推荐
        1.3.2 协同过滤推荐
        1.3.3 基于社会网络分析方法的推荐
        1.3.4 基于网络结构的推荐策略
        1.3.5 混合推荐
    1.4 文本分类
    1.5 本文的主要工作和结构安排
第二章 基于Hadoop平台新闻数据抓取
    2.1 Hadoop简介
    2.2 Hadoop的体系结构
        2.2.1 HDFS的体系结构
        2.2.2 Map Reduce的体系结构
        2.2.3 Hbase体系结构
    2.3 基于Hadoop的数据采集
        2.3.1 Hadoop平台搭建
        2.3.2 数据抓取
        2.3.3 网络爬虫
        2.3.4 基于DOM树的网页解析
    2.4 数据存储
    2.5 本章小结
第三章 基于标题的热点新闻推荐算法
    3.1 背景及动机
    3.2 文本分类方法
        3.2.1 朴素贝叶斯算法
        3.2.2 K最邻近分类算法
        3.2.3 支持向量机
        3.2.4 神经网络算法
        3.2.5 决策树分类算法
    3.3 基于标题的热点新闻推荐
        3.3.1 基于朴素贝叶斯的推荐算法
        3.3.2 基于SVM推荐算法
    3.4 实施方案
        3.4.1 基于朴素贝叶斯的推荐方法
        3.4.2 基于SVM的推荐方法
    3.5 仿真实验
        3.5.1 中文分词
        3.5.2 实验结果与分析
    3.6 本章小结
第四章 基于文本摘要的新闻推荐
    4.1 基于标题的新闻推荐缺陷
    4.2 文本摘要
        4.2.1 文本摘要分类
        4.2.2 基于text Rank的文本摘要算法
        4.2.3 基于复杂网络的文本摘要算法
    4.3 基于文本摘要的新闻推荐算法
    4.4 实验结果分析
    4.5 系统实现
    4.6 本章小结
第五章 总结和展望
参考文献
致谢
在学校期间的研究成果及发表的学术论文

【相似文献】

相关期刊论文 前10条

1 马汉华;邵志清;过弋;;基于认知心理学模型的自动文本摘要生成技术[J];华东理工大学学报(自然科学版);2009年06期

2 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期

3 程倩倩;田大钢;;基于基本要素方法的中文自动文本摘要模型[J];现代图书情报技术;2010年02期

4 胡侠;林晔;王灿;林立;;自动文本摘要技术综述[J];情报杂志;2010年08期

5 刘冬平;李振坤;熊建斌;;基于统计的音乐摘要研究[J];现代计算机(专业版);2010年02期

6 王知津;基于句子选择的自动文本摘要方法及其评价[J];现代图书情报技术;1998年01期

7 邹剑章;周经野;陈益强;胡明清;;基于事件框架的移动摘要方法研究[J];微计算机信息;2010年12期

8 廖涛;刘宗田;王利;;多主题文本摘要抽取的研究与实现[J];计算机工程;2011年06期

9 龙珑;邓伟;;绿网摘要提取系统算法研究[J];微型机与应用;2013年12期

10 张龙凯;王厚峰;;文本摘要问题中的句子抽取方法研究[J];中文信息学报;2012年02期


相关硕士学位论文 前10条

1 谢松山;非领域知识依赖的文本摘要方法的研究[D];西南大学;2015年

2 王斌;面向微博的观点摘要关键技术研究[D];山西大学;2015年

3 Ahmad Najibullah;印尼文文本摘要的句子提取和还原[D];南昌大学;2015年

4 王晓阳;一种基于概念格的中文文本摘要方法研究[D];北京理工大学;2015年

5 吴振东;基于图模型聚类的文本摘要方法研究[D];浙江工商大学;2015年

6 许盛伍;在线热点新闻推荐系统研究和实现[D];南京航空航天大学;2015年

7 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年

8 闫英杰;偏重摘要技术及其应用研究[D];大连理工大学;2007年

9 王英杰;基于潜在语义分析的文本摘要技术研究[D];山东大学;2014年

10 刘茵;新闻文档的自动文本摘要技术研究[D];解放军信息工程大学;2007年



本文编号:2852586

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2852586.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ef3e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com