Spark平台下的高效Web文本分类系统的研究
本文关键词:Spark平台下的高效Web文本分类系统的研究
更多相关文章: KNN TFIDF 文本分类 Hadoop Spark
【摘要】:针对KNN分类算法在面对海量Web文本处理情况时在单机上训练和测试效率低下的问题,提出基于Hadoop分布式平台以及Spark并行计算模型的无中间结果输出的改进型Web文本分类系统。同时为了充分利用Spark的迭代计算能力,在文本向量化阶段,在传统TFIDF文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法。实验结果表明,该文本分类系统结合Spark计算模型在提高文本预处理、文本向量化以及KNN文本分类算法的性能上有着优异的表现。
【作者单位】: 南京工业大学计算机科学与技术学院;
【关键词】: KNN TFIDF 文本分类 Hadoop Spark
【分类号】:TP391.1
【正文快照】: 0 引言 随着大数据浪潮的到来,对海量信息的处理能力已经成为一个相当重要的课题。成熟的文本分类系统通常具有很高准确率,但Web文本信息的实时性特点同时也要求分类系统具有很高的分类效率。目前使用比较广泛的文本分类算法包括K临近算法[1]、朴素贝叶斯[2]、最大熵[3]、支
【相似文献】
中国期刊全文数据库 前10条
1 李光敏;许新山;熊旭辉;;Web文本情感分析研究综述[J];现代情报;2014年05期
2 王序臻;;Web文本层次分类方法研究[J];温州职业技术学院学报;2008年03期
3 邹志华;田生伟;禹龙;冯冠军;;改进的维吾尔语Web文本后缀树聚类[J];中文信息学报;2013年02期
4 王景中;郭兆亮;;基于分层的中文Web文本内容过滤研究[J];网络安全技术与应用;2012年11期
5 王健;韩广琳;;基于统计的Web文本自动摘要技术分析[J];福建电脑;2007年08期
6 翁_g;胡长军;席强;张学春;;一种面向e-Science环境的多领域Web文本特征抽取模型[J];小型微型计算机系统;2011年01期
7 钟军;田生伟;禹龙;;Web文本中维吾尔语领域术语的自动发现[J];计算机应用;2012年02期
8 古丽娜孜;孙铁利;;基于二叉树的多类SVM在Web文本分类中的应用研究[J];新疆大学学报(自然科学版);2011年01期
9 李士勇;;基于人工免疫的Web文本自动摘要方法研究[J];现代计算机;2013年15期
10 徐丽;伏玉琛;李斯;;一种改进的SVM决策树Web文本分类算法[J];苏州大学学报(工科版);2011年05期
中国重要会议论文全文数据库 前3条
1 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
2 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 闫季鸿;基于Web文本和知识图谱的实体摘要[D];华东师范大学;2016年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前5条
1 于帅;中文Web文本情感倾向性分析技术的研究[D];哈尔滨工程大学;2013年
2 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
3 邓琨;基于Rough集的Web文本分类及其信息抽取研究[D];南昌大学;2007年
4 桂海霞;利用表格等信息的Web文本分类研究与实现[D];安徽理工大学;2008年
5 张谌奇;支持向量机在Web文本分类中的分析与应用[D];暨南大学;2008年
,本文编号:1103945
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1103945.html