当前位置:主页 > 社科论文 > 新闻传播论文 >

网络新闻语料库建设及其分布式检索系统研究

发布时间:2020-05-17 15:00
【摘要】:网络新闻语料库是以语料库语言学等相关理论为基础,并使用网络爬虫等技术手段,随机的收集互联网上的真实的新闻文本而建立的具有一定规模的语料库。网络新闻作为互联网上一种十分常见的文本形式,我们可以利用网络新闻发掘互联网上网络语言使用的习惯,以及新闻的热点趋势及变化等有价值信息。综上,我们可以从网络新闻语料库发掘许多之前因理论技术所限没有注意到的语言在实际使用中的规律和模式,使用语料库可以进行许多自然语言相关的科学研究。因此,网络新闻语料库的研究价值巨大。另外,随着计算机应用技术的不断发展,加之个人计算机性能的不断提升,充分利用互联网资源建设适合自己需要的语料库也成为可能。基于以上,本课题利用网络爬虫技术爬取了最近五年约200万篇八个类别的网络新闻来完成了一个网络新闻语料库的建设。同时设计并实现了一个基于Elasticsearch的分布式检索系统。分布式检索系统基于B/S架构,遵循MVC的软件设计规范,检索效果优良。本文主要的工作如下:一、介绍了网络新闻语料库建设中最重要的技术——网络爬虫的技术原理,以及网络爬虫中涉及到的其他技术原理。二、介绍了全文检索技术的理论基础。包括全文检索的技术原理,分词算法,倒排索引的原理及其在全文检索中的重要意义,学习tf-idf权重计算来测量词项对于一篇新闻文档的重要程度,以及如何使用向量空间模型来用线性代数中向量的相关理论来解决计算文本相似性的问题等等。三、设计并完成了网络新闻语料库的建设,设计并实现了基于Elasticsearch的分布式检索系统。最后,通过上述工作,我们完成了一个具有足够的代表性的,高质量的,具有一定规模的网络新闻语料库的建设工作,实现了一个检索响应快,可用性高的分布式检索系统。
【图文】:

状态图,状态,配置文件,目录


.JDK1.8.0_1910逡逑(2)下载邋Elasticsearch逡逑在Elasticsearch官方网站上找到合适的Elasticsearch版本,本文选用的是6.5.2逡逑版本,下载tar格式安装包,解压到/usr/local目录下。逡逑(3)启动邋Elasticsearch逡逑下载完成后,切换到Elasticsearch安装包存放的目录,执行命逡逑令:./bin/elasticsearch。这样就启动好了。想要配置集群名称,节点名称,指定master逡逑节点,分片以及副本数量等,可以再config目录下修改相应的配置文件。例如基本逡逑配置文件邋elasticsearch.yml,log4j2.properties邋是曰志配置文件。逡逑这样一个节点环境就搭好了,系统里面一共搭建了3个节点,其中包括了2个逡逑调度节点,主节点可以在里面选取。按照同样的方式来配置另外两台节点。这样逡逑Elasticsearch的集群环境己经配置完成。逡逑为了可视化查看集群的状态,我们安装了邋Head插件。Head是一个H5编写的逡逑集群操作和管理工具,可以可视化的对集群进行一些操作。在Head插件可以显示逡逑集群的拓扑结构,执行索引和节点级别的操作,同时也能输入RESTful命令和逡逑Elasticsearch交互。迪过Head查看的集群状态如图4.1所不。逡逑

流程图,新闻网,下载,工具


4.2网络新闻语料库建设的实现逡逑网络新闻语料库建设就是利用JAVA语言,使用Eclipse作为丨DE工具,基于逡逑HTTP协议,从互联网上爬取新闻文本。该工程目录结构如图4.2所示。逡逑C=i邋'0|逦*逡逑a邋^邋NetCrawler逦^逡逑a邋^邋src逡逑康邋cn.edu.ccnu.netview.d邋own邋load逡逑卜靡邋crv.edu邋?ccnu.rvetview.邋down邋load,imp邋I逡逑>邋cn.edu.ccrvu.netview.parser逡逑1>邋0邋cn.edu.ccnu.nlp.crawler逡逑>邋班邋edu.ccmj.nlp.news逡逑>逦JRE邋System邋Library邋[jre1.8.0_l61]逡逑T-:逦Referenced邋Libraries逡逑>邋&lib逡逑nn逡逑图4.2工程目录图逡逑其中download及其implement包包含新闻网页下载运用的工具和方法,parser则逡逑是新闻网页解析的类和方法,crawler则是爬取待下载url的类和方法。News包里面逡逑是新闻实体类以及持久化。逡逑根据前一章的设计,本部分的工作流程可以分为四个模块。分别是新闻网址解逡逑析模块,,新闻页面下载模块,新闻文本抽取模块,新闻文本清洗模块。逡逑4.2.1新闻网址解析觖逡逑该模块任务就是从种子url中爬取更多url,将其放入待爬取队列,其流程图如逡逑图4.3所示。逡逑26逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:G210.7;TP391.3

【参考文献】

相关期刊论文 前10条

1 刘卓;;K-最邻近算法在文本自动分类中的应用[J];苏州市职业大学学报;2010年02期

2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

3 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期

4 杨定中;赵刚;王泰;;网络爬虫在Web信息搜索与数据挖掘中应用[J];计算机工程与设计;2009年24期

5 朱瑜;;语料库在英语写作教学中的应用[J];外语界;2009年03期

6 张文忠;杨士超;;中国学习者英语语料库中动名搭配错误研究[J];解放军外国语学院学报;2009年02期

7 卫乃兴;李文中;濮建忠;;COLSEC语料库的设计原则与标注方法[J];当代语言学;2007年03期

8 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期

9 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期

10 孙建军,成颖;基于信息检索交互模型的相关性研究[J];中国图书馆学报;2005年01期

相关硕士学位论文 前4条

1 曾亚飞;基于Elasticsearch的分布式智能搜索引擎的研究与实现[D];重庆大学;2016年

2 吕佳;基于Elastic Search的分布式日志搜索系统设计[D];复旦大学;2013年

3 胡鹏飞;Lucene与中文分词技术的研究及应用[D];北京交通大学;2010年

4 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年



本文编号:2668740

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2668740.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2f44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com