气象文本分类特征选择方法及其在MapReduce上的实现
发布时间:2020-05-25 20:20
【摘要】:随着社会的发展,信息呈现爆炸式的增长。在气象行业,全国34个省、直辖市、自治区、特别行政区以及各大中型主要城市共建有气象服务网站1200多个,包含的气象文本量巨大,如何从大量文本数据中采集到有用信息,成为研究热点。文本分类技术可以从大量文档中提取相关时效性信息,是实现从大量气象文本中提取相关信息的一项关键技术;而文本分类中,特征选择则是解决由高术语维度造成的高计算复杂度和低精度问题的核心技术。因此,本文由此为切入点,针对经典算法缺少对术语频率和术语分布贡献度的综合衡量,提出了基于卡方统计的特征选择改进算法,并在气象文本数据集和经典文本分类数据集中验证了有效性;同时针对文本信息数据量大,单机执行时间漫长的不足,提出了基于MapReduce并行计算框架的气象文本分类实现方法,通过实验验证了分布式并行计算在气象文本数据集效率上的提高。本文具体完成了以下工作:(1)提出基于术语频率和术语分布的卡方统计改进方法(Term Frequency and Distribution based CHI, TFDCHI)。本文在学习特征选择经典方法原理,分析算法不足之后,提出了基于传统卡方统计的改进算法。改进算法用样本方差来计算术语分布度,并结合最大术语频率修正卡方统计评估函数。该算法将同时考虑术语频率和术语分布对特征词选择的综合贡献度。通过在气象文本数据集和经典文本分类数据集中的实验,验证了本方法在分类效果上的提高。(2)设计实现了基于MapReduce的气象文本分类方法。本文基于MapReduce并行计算框架,依托开源平台Hadoop,对气象文本分类进行并行化处理。本文提出的方法不仅仅是对分类算法的并行化实现,还包含了气象文本预处理、TFDCHI算法、文本表示阶段的分布式并行计算方案,尽可能的分隔计算任务,并行执行。通过实验比较,验证了分布式并行处理方法在分类效率上的提高。(3)通过气象文本采集系统,采集中国气象局气象服务网站、全国各大省级气象局和市县级气象局气象服务网、气象相关网站论坛微博等多个网站中的文本信息,并对采集到的文本信息进行预处理,分析数据集结构,形成便于分类的气象文本数据集。
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P409;TP391.1
本文编号:2680697
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P409;TP391.1
【参考文献】
相关期刊论文 前4条
1 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
2 马晖男;吴江宁;潘东华;;一种修正的向量空间模型在信息检索中的应用[J];哈尔滨工业大学学报;2008年04期
3 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
4 Lin Feng;Jing Wang;Shenglan Liu;Yao Xiao;;Multi-label dimensionality reduction and classification with extreme learning machines[J];Journal of Systems Engineering and Electronics;2014年03期
相关博士学位论文 前1条
1 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
,本文编号:2680697
本文链接:https://www.wllwen.com/projectlw/qxxlw/2680697.html