基于统计学方法的朝鲜语大数据文本挖掘研究

发布时间：2021-04-09 16:40

　　我们现在所生活的是高速运行、时刻在向前发展的社会环境,科技的不断创新将我们带进了一个全新的大数据时代,发达的科技不仅仅日益丰富着人们的生活乐趣,同时将人们之间的关系进行了还原,心与心的距离缩小了,更重要的是改变了人们的沟通方式。大数据作为现代科技环境的中心,是一种极其重要的资源,大数据顾名思义当然是数据量“巨大”,但真正的价值不是它的大,而是它内在所包含的信息,那些可以被有效利用起来的信息,使之逐渐变成有意义的时代产物。如何发现这些信息是有价值的可以被人们使用的呢?那么就要通过文本挖掘技术来探究,文本挖掘是由机器学习、并行计算、统计学、数据挖掘、自然语言处理、概率、图论等各个学科相互融合的,涵盖着以上学科的精华,基于此就是文本挖掘被许多学者和专家进行研究的原因所在,融合了多种学科和技术,不存在明显的学术限制,可以使得各个领域的学者进行交流合作与探讨。由于朝鲜长期实行信息的封闭政策,官方的各种统计数据都零散的存在于各类文献资料或是新闻报道中,这给朝鲜半岛问题的系统研究带来了诸多不便,基于统计学方法的朝鲜语大数据文本挖掘研究就是要解决此类问题。本研究选取的新闻数据共计约500万条,其中朝鲜...

【文章来源】：延边大学吉林省 211工程院校

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

图３．１?ＫＰＩＤ大数据平台部署设计??

副本,机制,平台

?＋??大数据平台部署设计如下：??图３．１?ＫＰＩＤ大数据平台部署设计??Ｔｒａｎｓｗａｒｐ?Ｄａｔａ?Ｈｕｂ是一个集技术与性能于一身的高层次平台，成为截止目??前被应用的最多的版本，是能够支持Ｓｐａｒｋ的Ｈａｄｏｏｐ发行版的平台，速度超越??了开源Ｈａｄ〇〇ｐ２的版本。该数据分析平台融合了内存计算技术，可以处理海量的??数据，并且含有高效索引的技术，波及的程度是任意规模的企业，数据量的覆盖??率很高。同时平台可以不断地进行扩容操作，在不停机的状态下，可以无惧数据??的增长，更为可观的优势是所具备的性能是目前为止最高的。??Ｔｒａｎｓｗａｒｐ大数据综合平台包含的最为重要组成部分是Ｄｉｓｃｏｖｅｒ数据挖掘机??器学习组件，这里需要重点介绍该组件，能够成为大数据挖掘领域的代表技术，??是因为具有着非常高的覆盖率

管理功能,平台,服务器,副本

?ＤａｔａＮｏｄｅ??Ｑ?Ｒｅｐｌｉｃａｔｉｏｎ?＾｜｜?Ｒｅｐｌｉｃａｔｉｏｎ??图３．?２?ＨＤＦＳ副本机制配置??当要面临一个庞大的数据时，会将文件进行拆分，然后分散在各个服务器之??中，以此增加庞大文件的访问宽度，这是由于系统能够进行并行读入步骤，而且??是并行的从多个服务器中同时读入。Ｎａｍｅ?Ｎｏｄｅ服务器的ＤａｔａＮｏｄｅ是用来储存??ＨＤＦＳ文件的数据块，不用配合人工维护和干预就可以对系统的容量进行扩充操??２０??

本文编号：3127961

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3127961.html

上一篇：基于改进cat映射与混沌系统的彩色图像快速加密算法
下一篇：基于BIM的DB模式下装配式建筑协同估价模式研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|