当前位置:主页 > 社科论文 > 文化论文 >

基于Spark的海量少数民族文化资源数据挖掘研究

发布时间:2020-06-05 04:22
【摘要】:近年来,少数民族文化越来越受到国家和社会的重视,尤其随着信息技术的快速发展,少数民族文化数字化建设的力度也越来越大,各类民族文化信息资源不断涌现。然而,面对数量庞大、内容丰富、结构复杂的少数民族文化资源数据,如何快速、准确地发现、获取和利用有价值的信息,成为当前少数民族信息化发展亟待解决的问题之一。本文将大数据处理技术与数据挖掘技术相结合,对海量的少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径。主要研究内容包括:(1)少数民族文化资源预处理。少数民族文化资源主要以文本的方式分布在各民族地方网站,本文利用网络爬虫技术爬取各民族网站数据,再对获取的文本资源进行预处理,去除数据中的HTML格式,最后对纯文本资源进行分词、去除停用词、生成文本向量特征,构建一个文本向量特征模型。(2)基于Spark的粒子群算法(Particle Swarm Optimization,PSO)和k-means算法并行化。针对单机环境下数据处理效率的不足,通过引入Spark分布式计算法框架,对PSO和k-means算法进行并行化实现。并在PSO算法的并行化过程中,通过线性参数的方式降低固定权重参数的影响,进一步提升并行化的运行效率。(3)基于Spark的PSO-kmeans算法并行化研究。为了克服k-means算法聚类中心不确定的局限性,通过引入粒子群算法,快速确定k-means算法的聚类中心,提出一种基于Spark的PSO-kmeans算法。该算法针对粒子群算法容易陷入局部最优的缺陷,引入线性参数的方式加快搜索速度,从而快速获得聚类中心。实验表明,PSO-kmeans算法在降低运行时间的同时,保证了算法的稳定性,并且在少数民族文化资源聚类任务中,准确率提高了3.4%。(4)海量少数民族文化资源数据挖掘原型系统实现。在对少数民族数据资源挖掘原型系统各功能分析的基础上,设计少数民族数据挖掘平台,采用B/S结构的方式设计并实现了数据采集,数据处理和数据分析等功能。
【图文】:

生态系统


Spark 运行框架rk 相对于 MapReduce 的优势不仅体现在基于内存的性能上,更架集成了更多的子项目[56],包括Spark SQL(交互式操作)、Spark )、MachineLearning lib(机器学习库)、Graphx(并行图计算库)。S图 2.2 所示:rk 的核心是其计算逻辑,提供了多种组件,运行在通用平台上SparkSQL 可实现对数据库的操作,主要分 3 步处理;第一步 DataFrame 中提供的方法存储在内存中,它支持多种格式的数用 SQLContext 类;第二步数据处理可以实现各种算法,主ntext 类,完成 hive 数据库的操作;第三步结果输入是把计算的部存储文件。Machine Learnig lib 是常用机器学习库的算法实现ng 会不断接收从接收器发送来的数据流,把时间片内的数据打包

高层调度,分配程序,进程,任务组


图 2.3 Spark运行模式riverProgram 是 Spark 的一个应用程序,负责对整个集群的监控,节点;它通过 SparkContext 来连接整个集群,包含 main 函数,是操作的接口。ClusterManager 负责分配程序运行所需要的资源和保正常运行;Worker 是集群的计算节点,存在于每个 Slave 中,rManager 的命令,并以周期性的心跳机制向 ClusterManager 汇报集。每个 Worker 可以单独的运行,,接收到一个作业,将其划分为多个Executor 进程进行计算或者数据的存储。DriverProgram 创建进程时 DAGScheduler 和 TaskScheduler;DAGScheduler 属于高层调度模ffle 将作业划分为不同的 Stage,同时会根据 Partition 构造每个 Sta任务,然后以任务组的形式交由 TaskScheduler 具体执行。2.5 YARN 资源管理器
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:G122;TP311.13

【参考文献】

相关期刊论文 前10条

1 董春涛;李文婷;沈晴霓;吴中海;;Hadoop YARN大数据计算框架及其资源调度机制研究[J];信息通信技术;2015年01期

2 黄永林;;数字化背景下非物质文化遗产的保护与利用[J];文化遗产;2015年01期

3 林乐波;陈鲁峰;;网络教研:引领教研的“新引擎”[J];基础教育参考;2013年24期

4 刘鹏;孟炎;吴艳艳;宋丹娃;;聚类分析和孤立点技术在网络安全态势中的应用[J];网络安全技术与应用;2013年03期

5 饶君;吴斌;东昱晓;;MapReduce环境下的并行复杂网络链路预测[J];软件学报;2012年12期

6 李宗天;;浅谈如何保护和传承朝鲜族传统音乐文化[J];品牌(理论月刊);2010年11期

7 华铨平;;面向数据特征的分布式数据挖掘研究[J];计算机工程与设计;2010年06期

8 王沁;李磊;陆成勇;孙富明;;平均计算时间复杂度优化的动态粒子群优化算法[J];计算机科学;2010年03期

9 王月;柴瑞敏;;减聚类的模糊C-均值算法在文本分类中的应用[J];计算机系统应用;2010年03期

10 吴建平;王耀希;代红兵;;文化遗产数字化应用平台的技术构建[J];计算机应用研究;2006年08期

相关博士学位论文 前4条

1 卫守林;分布式天文海量数据处理与控制研究[D];中国科学院大学(中国科学院云南天文台);2017年

2 黄家周;文化建设视域下民族地区马克思主义大众化的路径研究[D];西南交通大学;2015年

3 王锐;数字博物馆资源虚拟化与数据集成方法研究[D];山东大学;2010年

4 李明;智能优化排样技术研究[D];浙江大学;2006年

相关硕士学位论文 前10条

1 赵海燕;基于卷积神经网络的民族服饰图像教育资源检索研究[D];云南师范大学;2018年

2 韩浩;基于云计算的钓鱼网站检测研究[D];中国矿业大学;2018年

3 邓家璧;模拟移动床分离过程的控制与优化方法研究[D];沈阳化工大学;2018年

4 钱雅伦;基于智能算法的配电网故障自愈方法研究[D];华北电力大学;2018年

5 冯亮亮;基于Hadoop的MapReduce性能优化研究[D];南京邮电大学;2017年

6 陈萌;分布式视频快速识别分析系统设计与实现[D];西安电子科技大学;2017年

7 何亚南;基于时序动态描述逻辑的民族文化资源知识表示形式化模型研究[D];云南师范大学;2017年

8 吴稀钰;基于Spark的谱聚类算法及其在QAR数据中的应用[D];中国民航大学;2017年

9 刘四平;多源数据融合的协同过滤算法研究[D];湖南大学;2017年

10 陈慧丽;云计算环境下静态任务调度机制研究[D];武汉理工大学;2017年



本文编号:2697501

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/wenhuayichanlunwen/2697501.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8ad29***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com