基于Spark云计算架构的云南省生物医药专利数据的聚类分析研究

发布时间：2021-04-10 18:10

　　随着时代技术的发展,专利数量急剧增加。专利信息作为技术情报最有效的载体,隐藏了大量的技术信息。其中,专利文本则是技术情报的最佳来源。云南作为生物医药产业的重点省份,专利数据收集及应用相对落后,不能为产业规划部署提供决策支撑。传统的专利数据挖掘存在效率低、维度单一、数据样本小、层次不够深入等问题,以无法满足如今对专利数据挖掘的需求。基于此,本文使用云计算技术和数据挖掘技术对生物医药产业专利数据进行分析研究。论文主要研究工作如下:（1）提出了一种对专利数据多维度聚类分析方法。该方法将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量,进而对专利年度发展状况、IPC分类号以及高产申请人进行聚类分析。该方法能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传统专利数据分析的不足。（2）提出了一种利用LDA主题模型对专利文本聚类从而挖掘专利技术主题的方法。LDA主题模型将每一篇专利文档表示为一些主题所构成的一个概率分布,而每一个主题又表示为很多单词所构成的一个概率分布。这样LDA就将文档和词投射到了一组主题上,试图通过主...

【文章来源】：昆明理工大学云南省

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

研究思路针对问题，结合研究思路，本文主要研究内容如下：（1）提出了一种对专利数据多维度聚类分析方法

结构示意图,文件读取,写入系统,文件

学位论文 DataNode 通信进行文件读取与写入操作。当文件写入系统时，Clie为多个 Block，然后发送请求到 NameNode 去寻找最合适的 DataN，通过增加副本来提高容错性。最后 Client 以 Pipeline 的形式将数系统读取文件时，Client 会先与 NameNode 进行通信，NomeNode 返回的 Block 的位置，最后 DataNode 会选择离 Client 最近的 Block 中读

软件栈

第二章关键技伸缩计算。为实现此要求的同时获得最大灵活性，Spark 支持在各种集群管理器括 Hadoop YARN、Apache Mesos 以及 Spark 自带的独立调度器等等。从存储层来k 不仅可以将任何 Hadoop 分布式文件系统上的文件读取为分布式数据集，也可以支持 Hadoop 接口的系统，如本地文件、亚马孙 S3、Hive、HBase 等。Spark Co心组件，实现了 Spark 诸如任务调度、内存管理、错误恢复等基本功能，并且还 RDD 的 API 定义[38]。由于 Spark 的核心引擎具有速度快和通用等特点，因此持为各种不同应用场景专门设计的高级组件，比如用来操作结构化数据的程序包、用来提供的对实时数据进行流式计算的组件 Spark Streaming、提供常见的机器的程序库 MLIib、操作图的程序库 GraphX 等[39]。

【参考文献】：
期刊论文
[1]基于LDA模型和分类号的专利技术演化研究[J]. 廖列法,勒孚刚.  现代情报. 2017(05)
[2]云计算概念、技术发展与应用[J]. 赵兴芝,臧丽,朱效丽,谭凤华.  电子世界. 2017(03)
[3]基于专利分析的江苏生物医药发展现状与对策研究[J]. 夏太寿,王园磊,田丽丽.  中国生物工程杂志. 2016(08)
[4]基于大数据视角的专利分析方法与模式研究[J]. 彭茂祥,李浩.  情报理论与实践. 2016(07)
[5]基于专利维度的我国生物医药核心技术的识别与分析[J]. 王天歌,王金苗,袁红梅.  情报杂志. 2016(04)
[6]基于改进的LDA主题模型的微博用户聚类研究[J]. 裴超,肖诗斌,江敏.  情报理论与实践. 2016(03)
[7]基于Spark的Kmeans并行算法研究[J]. 蔡洪山.  电脑知识与技术. 2016(04)
[8]K-means聚类算法在Spark平台上的应用[J]. 程国建,赵倩倩.  软件导刊. 2016(02)
[9]数据挖掘的现状及发展趋势研究分析[J]. 刘帅,蒋贵凰.  现代商业. 2015(33)
[10]Spark生态系统走向成熟和应用[J]. 李曼,于青利.  世界电信. 2015(07)

硕士论文
[1]基于LDA模型的专利文本分类及演化研究[D]. 勒孚刚.江西理工大学 2017
[2]基于云模型和数据场的聚类研究[D]. 冯应柱.重庆交通大学 2017
[3]云框架下的文本挖掘算法并行化研究[D]. 滕家雨.中国矿业大学 2015
[4]基于Spark的大数据挖掘技术的研究与实现[D]. 李文栋.山东大学 2015
[5]融合属性抽取的多粒度专利文本聚类研究[D]. 孙东普.大连理工大学 2015
[6]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D]. 梁彦.中山大学 2014
[7]基于LDA多模型中文短文本主题分类体系构建与分类[D]. 郭剑飞.哈尔滨工业大学 2014
[8]基于专利数据挖掘的技术趋势分析方法[D]. 张超.大连理工大学 2014
[9]基于专利数据分析的云南生物医药企业专利战略研究[D]. 姜莉莉.云南大学 2013
[10]基于LDA模型的文本主题挖掘和文本静态可视化的研究[D]. 施乾坤.广西大学 2013

本文编号：3130101

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/keyanlw/3130101.html

上一篇：中国省/市专利价值度比较研究
下一篇：科技博物馆STEM教育的深化与特色化

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|