维吾尔语区分性关键词提取算法研究及其性能分析
发布时间:2019-04-28 18:26
【摘要】:当今时代随着互联网的迅速发展,我们要面对的数据信息量日渐庞大,,怎样才能从海量的数据中选择出我们需要的、感兴趣的信息已经成为了迫切需要解决的问题。数据挖掘技术在选择与提取方面的重要性日渐凸现出来。文本挖掘是数据挖掘中的重要组成部分之一,而关键词抽取是文本挖掘的重要内容。所谓关键词抽取,是指通过文本分析技术,自动提取出最具有代表性的关键集合。关键词抽取技术对自然语言处理、文本自动摘要生成、文本分类、文本聚类和信息检索等研究都具有重要意义。当前绝大多数关键词提取技术关注对文本内容的摘要性描述,本文研究区分性关键词提取技术,即所提取的关键词目的是对文本具有更强的分类能力,而不是表达文本内容本身,这一研究对稀疏性文本分类具有重要意义。 本文首先从维吾尔文网站中下载了1000篇文档(500篇属于健康类的,500篇属于教育、计算机、军事、房地产、历史、地理等类)建立了文本语料库。 在特征词语提取方面,本文首先使用了基于TextRank的多文档关键词提取方法。用这一方法选出的100个关键词为特征项的分类结果为80%。为了进一步提高分类精度,本文又研究了基于词频率/逆文档频率(TF/IDF)区分性统计信息的关键词选择方法。其中包含了10种基于TF/IDF的区分信息:DF差异,DF绝对差异,TF差异,TF绝对差异,TF*DF差异,TF*DF绝对差异,TF*IDF差异,TF*IDF绝对差异,TF*DF*IDF差异,TF*DF*IDF绝对差异。实验证明第二种方法选出的关键词具有更为明显的分类能力,在100个关键词为特征项的实验中分类准确率可达98%。 在开发工具和编程语言方面:在开源的TextRank和LIBSVM工具软件平台基础上,通过Perl和Python实现了以上维吾尔文区分性关键性词语提取系统,并对系统运行结果进行了分析。
[Abstract]:......
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
本文编号:2467858
[Abstract]:......
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前4条
1 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
2 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
相关硕士学位论文 前9条
1 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
2 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
3 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
4 应伟;基于支持向量机的文本分类方法研究[D];天津大学;2006年
5 邹汉斌;支持向量机在文本分类中的应用[D];江南大学;2006年
6 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
7 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
8 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
9 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
本文编号:2467858
本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/2467858.html