基于统计学方法的朝鲜语大数据文本挖掘研究
发布时间:2021-04-09 16:40
我们现在所生活的是高速运行、时刻在向前发展的社会环境,科技的不断创新将我们带进了一个全新的大数据时代,发达的科技不仅仅日益丰富着人们的生活乐趣,同时将人们之间的关系进行了还原,心与心的距离缩小了,更重要的是改变了人们的沟通方式。大数据作为现代科技环境的中心,是一种极其重要的资源,大数据顾名思义当然是数据量“巨大”,但真正的价值不是它的大,而是它内在所包含的信息,那些可以被有效利用起来的信息,使之逐渐变成有意义的时代产物。如何发现这些信息是有价值的可以被人们使用的呢?那么就要通过文本挖掘技术来探究,文本挖掘是由机器学习、并行计算、统计学、数据挖掘、自然语言处理、概率、图论等各个学科相互融合的,涵盖着以上学科的精华,基于此就是文本挖掘被许多学者和专家进行研究的原因所在,融合了多种学科和技术,不存在明显的学术限制,可以使得各个领域的学者进行交流合作与探讨。由于朝鲜长期实行信息的封闭政策,官方的各种统计数据都零散的存在于各类文献资料或是新闻报道中,这给朝鲜半岛问题的系统研究带来了诸多不便,基于统计学方法的朝鲜语大数据文本挖掘研究就是要解决此类问题。本研究选取的新闻数据共计约500万条,其中朝鲜...
【文章来源】:延边大学吉林省 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3.1?KPID大数据平台部署设计??
?+??大数据平台部署设计如下:??图3.1?KPID大数据平台部署设计??Transwarp?Data?Hub是一个集技术与性能于一身的高层次平台,成为截止目??前被应用的最多的版本,是能够支持Spark的Hadoop发行版的平台,速度超越??了开源Had〇〇p2的版本。该数据分析平台融合了内存计算技术,可以处理海量的??数据,并且含有高效索引的技术,波及的程度是任意规模的企业,数据量的覆盖??率很高。同时平台可以不断地进行扩容操作,在不停机的状态下,可以无惧数据??的增长,更为可观的优势是所具备的性能是目前为止最高的。??Transwarp大数据综合平台包含的最为重要组成部分是Discover数据挖掘机??器学习组件,这里需要重点介绍该组件,能够成为大数据挖掘领域的代表技术,??是因为具有着非常高的覆盖率
?DataNode??Q?Replication?^||?Replication??图3.?2?HDFS副本机制配置??当要面临一个庞大的数据时,会将文件进行拆分,然后分散在各个服务器之??中,以此增加庞大文件的访问宽度,这是由于系统能够进行并行读入步骤,而且??是并行的从多个服务器中同时读入。Name?Node服务器的DataNode是用来储存??HDFS文件的数据块,不用配合人工维护和干预就可以对系统的容量进行扩充操??20??
本文编号:3127961
【文章来源】:延边大学吉林省 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3.1?KPID大数据平台部署设计??
?+??大数据平台部署设计如下:??图3.1?KPID大数据平台部署设计??Transwarp?Data?Hub是一个集技术与性能于一身的高层次平台,成为截止目??前被应用的最多的版本,是能够支持Spark的Hadoop发行版的平台,速度超越??了开源Had〇〇p2的版本。该数据分析平台融合了内存计算技术,可以处理海量的??数据,并且含有高效索引的技术,波及的程度是任意规模的企业,数据量的覆盖??率很高。同时平台可以不断地进行扩容操作,在不停机的状态下,可以无惧数据??的增长,更为可观的优势是所具备的性能是目前为止最高的。??Transwarp大数据综合平台包含的最为重要组成部分是Discover数据挖掘机??器学习组件,这里需要重点介绍该组件,能够成为大数据挖掘领域的代表技术,??是因为具有着非常高的覆盖率
?DataNode??Q?Replication?^||?Replication??图3.?2?HDFS副本机制配置??当要面临一个庞大的数据时,会将文件进行拆分,然后分散在各个服务器之??中,以此增加庞大文件的访问宽度,这是由于系统能够进行并行读入步骤,而且??是并行的从多个服务器中同时读入。Name?Node服务器的DataNode是用来储存??HDFS文件的数据块,不用配合人工维护和干预就可以对系统的容量进行扩充操??20??
本文编号:3127961
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3127961.html