当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络媒体语料库系统设计与实现

发布时间:2020-09-15 11:22
   随着互联网的极速发展,网络媒体成为媒体传播的重要手段,海量的网络媒体信息为用户带来了极丰富的语料资源。除了新闻传播以外,论坛、博客、微博等新的网络媒体形式不断出现,网络媒体的内涵和外延也正不断发生演化。面对浩瀚的网络语料数据集,如何充分挖掘其价值,以可视化方法针对特定话题进行分析成为亟待解决的问题。在此基础上,网络媒体监测应运而生,成为了分析语料数据的一种必要手段。本文构建的网络媒体语料库系统的主要目的是利用信息检索和自然语言处理等技术,以自动化的手段对网络上各种媒体信息进行收集、整理,分析和加工。本文的主要工作如下:(1)语料库分析:首先利用通用网络爬虫算法爬取新闻、微博、博客、论坛数据,并对这些数据进行预处理;接下来构建语料库,实现对以上四类语料按日期范围查找的功能;最后实现话题分析,针对新闻语料做关键词检索,用可视化的方法呈现话题分布趋势,结合Bing搜索引擎搜索关键词更多相关内容并通过Carrot2进行话题聚类分析。(2)新闻监测分析:首先实现每日新闻监测,不仅包括实时爬取新浪首页当日新闻,还利用Carrot2聚类对所爬取的新闻做话题聚类,提取并展示当日新闻热点话题;随后利用NLPIR分词工具对每日新闻进行命名实体提取以及新词识别,结合TF-IDF算法对提取效果做优化,将最终结果通过可视化图表展现;最后收集各大机构的每日热门话题并在汇聚在本系统页面上展示。支持查看与以上所有的命名实体、新词、话题相关的新闻详情列表。
【学位单位】:华中师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1

【参考文献】

相关期刊论文 前7条

1 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期

2 张轶;李飞;;疾病控制领域网络媒体监测及其实施结果分析[J];无线互联科技;2013年04期

3 路永和;李焰锋;;改进TF-IDF算法的文本特征项权值计算方法[J];图书情报工作;2013年03期

4 范达超;;论政府应对网络舆情事件的对策研究[J];厦门特区党校学报;2012年02期

5 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期

6 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

7 姜岩;第四媒体的崛起[J];中国新闻科技;1999年05期

相关硕士学位论文 前9条

1 张星宇;基于MVC架构的税务部门人员考核系统的设计与实现[D];吉林大学;2018年

2 杜艳美;基于web前端的性能优化框架模型研究[D];西南科技大学;2018年

3 张凌瑞;基于窥视孔连接的BILSTM及CRF算法对复杂文本序列标注处理[D];北京交通大学;2018年

4 马存;基于Word2Vec的中文短文本聚类算法研究与应用[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年

5 周本金;改进K-means算法在文本聚类中的应用[D];中国工程物理研究院;2018年

6 曲哲凝;Lucene中文分词在电子档案全文检索中的应用研究[D];大连海事大学;2015年

7 韩逸;基于增量式爬虫的搜索引擎系统的设计与实现[D];东北大学;2015年

8 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年

9 张瑞;基于Lucene的中英文文档全文搜索引擎[D];电子科技大学;2008年



本文编号:2818901

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2818901.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fa18d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com