基于支持向量机的海量文本分类并行化技术研究
本文关键词:基于支持向量机的海量文本分类并行化技术研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网的发展,网络中的信息数据以前所未有的速度快速增加着。文本作为网络数据的主要表现形式之一,蕴含着丰富的信息。文本分类技术是自然语言处理的重要部分,通过文本分类能挖掘到文本数据很多潜在的价值。互联网上的数据挖掘技术往往伴随着海量规模的数据集。计算速度是这类问题重点优化的因素之一。通过算法并行化可以提高计算速度。使用计算机集群或图形处理器等硬件环境则可以提高算法的并行计算能力。本论文目的是提高海量文本分类的精度与速度,分析了文本分类技术与并行化技术。介绍了中文文本处理的分词、去停用词、文本向量表示、特征选择、权重计算过程,对比了不同分类算法的特点,并介绍了人工智能优化算法。本文选择了GPU、Hadoop以及Spark的并行计算平台进行介绍与分析。对文本分类精度的提高,本文提出了文本特征空间迭代优化算法。算法针对每次生成的特征空间存在的如类别混淆等不足进行修正,以生成新的特征空间提高分类精度。此外,引入粒子群优化算法用于径向基核函数支持向量机的参数调优,以找到具有更高精度的径向基核参数。对分类速度的提高,是通过算法并行化达到的。本文对文本的预处理、线性核与径向基核函数的支持向量机均进行了并行实现,通过将算法中迭代部分进行高并发计算、将算法中适合拆分的部分使用Map/Reduce进行计算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了计算速度,扩展了算法处理的数据规模。在实验的设计与实施上,本文进行了新闻文本分类与微博情感分类两组实验。两组数据集具有各自的特点,分别代表了两种文本分类的实际应用。文本特征空间迭代优化算法对新闻分类效果显著,妥善处理了类别之间的混淆情况。微博正文附加评论的方法扩展了文本内容,加上粒子群调优的径向基核支持向量机,微博情感分类也有较高的精度。数据集的规模从小到大,使用串行算法耗费很长时间的数据集,通过并行实现能够达到生产环境中可以接受的较短时间。
【关键词】:文本分类 支持向量机 并行计算 特征空间
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-15
- 1.1 研究背景与意义10
- 1.2 国内外研究发展现状10-14
- 1.2.1 文本分类10-12
- 1.2.2 文本分类并行化12-13
- 1.2.3 情感分类13-14
- 1.3 研究的主要内容14
- 1.4 本文的内容组织14-15
- 第2章 中文文本分类研究15-29
- 2.1 中文文本分类框架15-16
- 2.2 中文文本处理流程16-22
- 2.2.1 中文分词16-17
- 2.2.2 去停用词17-18
- 2.2.3 文本向量表示18
- 2.2.4 特征选择18-21
- 2.2.5 权重计算21-22
- 2.3 文本分类算法22-26
- 2.3.1 K最近邻分类算法22-23
- 2.3.2 朴素贝叶斯分类算法23-25
- 2.3.3 支持向量机分类算法25-26
- 2.4 优化算法26-29
- 2.4.1 人工智能优化算法26-27
- 2.4.2 粒子群优化算法27-29
- 第3章 并行化技术研究29-33
- 3.1 GPU并行计算框架29
- 3.2 Hadoop分布式计算系统29-31
- 3.2.1 HDFS分布式文件系统30
- 3.2.2 Map/Reduce计算模型30
- 3.2.3 Hive数据仓库30-31
- 3.3 Spark分布式计算系统31-33
- 3.3.1 弹性分布式数据集31
- 3.3.2 Spark工作原理31-33
- 第4章 改进的文本分类及并行化方法33-46
- 4.1 文本特征空间迭代算法33-37
- 4.1.1 特征空间优化33-34
- 4.1.2 扩充词典34
- 4.1.3 过滤混淆词34-35
- 4.1.4 迭代优化35-37
- 4.2 粒子群优化的径向基核SVM37-38
- 4.3 文本预处理的并行实现38-40
- 4.4 SVM的GPU并行实现40-43
- 4.4.1 数据加载40-41
- 4.4.2 GPU并行化的线性核支持向量机41-42
- 4.4.3 GPU并行化的径向基核支持向量机42-43
- 4.5 Hadoop并行化的SVM43-44
- 4.6 Spark并行化的SVM44-46
- 第5章 数据与实验设计46-52
- 5.1 实验设计46
- 5.2 数据采集46-49
- 5.2.1 新闻数据46-48
- 5.2.2 微博数据48-49
- 5.3 页面净化49-50
- 5.4 数据存取50
- 5.5 评价指标50-52
- 5.5.1 并行化加速比50-51
- 5.5.2 准确率和召回率51
- 5.5.3 F1分数51-52
- 第6章 实验部署与结果分析52-64
- 6.1 系统环境部署52
- 6.2 新闻文本分类52-60
- 6.2.1 新闻文本特征52-53
- 6.2.2 新闻文本预处理53-54
- 6.2.3 并行实验部署54
- 6.2.4 分类精度效果54-58
- 6.2.5 运行性能对比58-60
- 6.3 微博情感分类60-64
- 6.3.1 微博文本特征60
- 6.3.2 微博文本预处理60-61
- 6.3.3 并行实验部署61
- 6.3.4 分类精度效果61-62
- 6.3.5 运行性能对比62-64
- 结论64-66
- 参考文献66-69
- 攻读学位期间发表论文与研究成果清单69-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s
本文编号:449207
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/449207.html