基于非均衡局部敏感哈希的并行文本分类研究
本文选题:KNN + 非均衡局部敏感哈希 ; 参考:《微电子学与计算机》2017年12期
【摘要】:针对KNN分类算法在面对海量文本处理时效率低下的问题,提出了一种基于超平面的非均衡局部敏感哈希分类算法,该分类算法相比于传统的局部敏感哈希算法在提高分类的准确性和实时性上有显著的效果.同时,为了进一步降低分类算法的执行时间,提高分类效率,将该分类算法与Spark并行计算模型结合,在大数据处理平台Hadoop上实现了一种高效的并行文本分类系统.实验结果表明,所设计的文本分类系统在具有较高分类速度的同时保持了较高的分类准确性.
[Abstract]:In order to solve the problem of low efficiency of KNN classification algorithm in the face of massive text processing, a hyperplane-based local sensitive hash classification algorithm is proposed. Compared with the traditional local sensitive hashing algorithm, the proposed algorithm can improve the accuracy and real-time performance of the classification. At the same time, in order to further reduce the execution time of the classification algorithm and improve the classification efficiency, the classification algorithm is combined with the Spark parallel computing model, and an efficient parallel text classification system is implemented on the big data processing platform Hadoop. The experimental results show that the proposed text classification system has higher classification speed and higher classification accuracy.
【作者单位】: 南京工业大学计算机科学与技术学院;
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期
2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 朱芳芳;李训根;;改进的哈希表查找算法[A];浙江省电子学会2013学术年会论文集[C];2013年
8 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前3条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
2 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
3 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
6 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
3 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
4 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
5 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
6 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
7 王s,
本文编号:1984092
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1984092.html