当前位置:主页 > 科技论文 > 软件论文 >

中文文本聚类常用停用词表对比研究

发布时间:2018-08-27 11:08
【摘要】:【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
[Abstract]:[Objective] To compare the effect of different stop-use vocabulary on different types of text data and provide reference for the construction and use of stop-use vocabulary. The same corpus uses Chinese word segmentation technology, TF-IDF feature evaluation function and VSM model for text processing, and uses K-means algorithm written in Java to do clustering experiments, through the accuracy of P, recall R and F1 three evaluation indicators to evaluate the effect of different clustering results. [Results] Different stop-word lists for different types of text. The results showed that the length and content structure of the vocabulary were the direct factors affecting the effect, and the effect of two-character stop words was the most obvious. [Conclusion] Stop word list has a great influence on the accuracy of text clustering, so it is very important to construct or select a suitable Chinese stop word list. At the same time, excessive increase of stop words does not always improve the clustering results.
【作者单位】: 南京大学信息管理学院;江苏省数据工程与知识服务重点实验室;
【基金】:中国地震局星火计划攻关项目“面向地震应急的空间智能决策方法研究”(项目编号:XH15019) 江苏省自然科学基金项目“面向专利预警的中文文本学习研究”(项目编号:BK20130587)的研究成果之一
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 黄磊;伍雁鹏;朱群峰;;关键词自动提取方法的研究与改进[J];计算机科学;2014年06期

2 于娟;尹积栋;费庶;;基于句法结构分析的同义词识别方法研究[J];现代图书情报技术;2013年09期

3 陈欣;张菁;李晓光;卓力;;一种面向中文敏感网页识别的文本分类方法[J];测控技术;2011年05期

4 崔彩霞;;停用词的选取对文本分类效果的影响研究[J];太原师范学院学报(自然科学版);2008年04期

5 化柏林;;知识抽取中的停用词处理技术[J];现代图书情报技术;2007年08期

6 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期

7 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期

8 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期

9 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期

10 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期

相关硕士学位论文 前5条

1 华林森;中文文本情感分类研究[D];重庆大学;2014年

2 周姚;基于云计算的文本挖掘技术研究[D];国防科学技术大学;2011年

3 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年

4 江兆中;基于语境和停用词驱动的中文自动分词研究[D];合肥工业大学;2010年

5 胡晓辉;基于团结构的文本分类技术研究[D];江西师范大学;2008年

【共引文献】

相关期刊论文 前10条

1 关浩华;;基于语音分析的智能质检关键词提取方法设计[J];自动化与仪器仪表;2017年07期

2 田凤亮;孙效玉;张航;;一种露天矿卡车故障的NLP技术挖掘与分析方法[J];金属矿山;2017年07期

3 李岩;徐硕;吴广印;干生洪;;一种采用SpotSigs算法的中文新闻网页相似性检测方法[J];情报工程;2017年03期

4 尹积栋;刘红;彭崧;张慧;;一种信息检索系统的设计与实现[J];计算机与现代化;2017年05期

5 王艳玲;林莹含;徐荣欢;许嘉琳;;基于科普平台的知识图谱[J];电脑知识与技术;2017年14期

6 窦鹏伟;王珍;佘侃侃;樊文玲;王旭东;;基于文本挖掘的中医文本情感分析[J];中华中医药学刊;2017年05期

7 郭东亮;刘小明;郑秋生;;基于卷积神经网络的互联网短文本分类方法[J];计算机与现代化;2017年04期

8 冯青文;;知识抽取国内研究现状分析[J];常州信息职业技术学院学报;2017年02期

9 何薇;张剑;于雪霞;吴佐平;张小华;陈晨;;基于文本挖掘的电网客户服务满意度评价模型[J];电子世界;2017年07期

10 官琴;邓三鸿;王昊;;中文文本聚类常用停用词表对比研究[J];数据分析与知识发现;2017年03期

相关硕士学位论文 前10条

1 陈文;中文短文本跨领域情感分类算法研究[D];重庆大学;2016年

2 张磊磊;基于Hadoop和SVM算法的中文文本分类的研究与实现[D];昆明理工大学;2015年

3 杨文敏;自然语言文本中不确定性信息的识别研究[D];河南工业大学;2015年

4 宋亭亭;林产品供求垃圾信息的过滤研究[D];北京林业大学;2015年

5 吴楠;基于LDA模型的微博话题与事件检测[D];哈尔滨工业大学;2014年

6 林琳;结合双粒子群和K-means的文本聚类研究[D];辽宁工程技术大学;2015年

7 巨瑜芳;基于NMF算法的文本聚类研究[D];中国矿业大学;2014年

8 袁恩阁;基于Nutch的医疗搜索引擎的研究与开发[D];新疆大学;2014年

9 郑秋辉;基于垂直搜索引擎的文本挖掘系统研究与实现[D];首都师范大学;2014年

10 宋振伟;用电信息采集系统数据库的云存储设计[D];山东大学;2014年

【二级参考文献】

相关期刊论文 前10条

1 李学明;李海瑞;薛亮;何光军;;基于信息增益与信息熵的TFIDF算法[J];计算机工程;2012年08期

2 张保富;施化吉;马素琴;;基于TFIDF文本特征加权方法的改进研究[J];计算机应用与软件;2011年02期

3 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

4 张颖颖;谢强;丁秋林;;基于同义词链的中文关键词提取算法[J];计算机工程;2010年19期

5 刘铭;王晓龙;刘远超;;基于词汇链的关键短语抽取方法的研究[J];计算机学报;2010年07期

6 于娟;党延忠;;结合词性分析与串频统计的词语提取方法[J];系统工程理论与实践;2010年01期

7 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期

8 沈志斌;白清源;;文本分类中特征权重算法的改进[J];南京师范大学学报(工程技术版);2008年04期

9 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期

10 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期

相关硕士学位论文 前10条

1 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年

2 李雪锋;基于云计算环境的web数据挖掘算法研究[D];北京交通大学;2010年

3 李军华;云计算及若干数据挖掘算法的MapReduce化研究[D];电子科技大学;2010年

4 刘洋;基于MapReduce的中医药并行数据挖掘服务[D];浙江大学;2010年

5 张宇;WEB中文文本聚类分类系统的设计与实现[D];西南交通大学;2009年

6 曾路平;基于相似度的文本聚类算法研究及应用[D];江苏大学;2009年

7 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年

8 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年

9 韦鲁玉;基于Agent的个性化智能信息检索系统[D];哈尔滨理工大学;2007年

10 罗远胜;基于PLS的文本分类技术研究[D];江西师范大学;2006年

【相似文献】

相关期刊论文 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

相关博士学位论文 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

相关硕士学位论文 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年



本文编号:2207094

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2207094.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b71e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com