维吾尔语区分性关键词提取算法研究及其性能分析

发布时间：2019-04-28 18:26

【摘要】：当今时代随着互联网的迅速发展，我们要面对的数据信息量日渐庞大，，怎样才能从海量的数据中选择出我们需要的、感兴趣的信息已经成为了迫切需要解决的问题。数据挖掘技术在选择与提取方面的重要性日渐凸现出来。文本挖掘是数据挖掘中的重要组成部分之一，而关键词抽取是文本挖掘的重要内容。所谓关键词抽取，是指通过文本分析技术，自动提取出最具有代表性的关键集合。关键词抽取技术对自然语言处理、文本自动摘要生成、文本分类、文本聚类和信息检索等研究都具有重要意义。当前绝大多数关键词提取技术关注对文本内容的摘要性描述，本文研究区分性关键词提取技术，即所提取的关键词目的是对文本具有更强的分类能力，而不是表达文本内容本身，这一研究对稀疏性文本分类具有重要意义。本文首先从维吾尔文网站中下载了1000篇文档（500篇属于健康类的，500篇属于教育、计算机、军事、房地产、历史、地理等类）建立了文本语料库。在特征词语提取方面，本文首先使用了基于TextRank的多文档关键词提取方法。用这一方法选出的100个关键词为特征项的分类结果为80%。为了进一步提高分类精度，本文又研究了基于词频率/逆文档频率(TF/IDF)区分性统计信息的关键词选择方法。其中包含了10种基于TF/IDF的区分信息：DF差异，DF绝对差异，TF差异，TF绝对差异，TF*DF差异，TF*DF绝对差异，TF*IDF差异，TF*IDF绝对差异，TF*DF*IDF差异，TF*DF*IDF绝对差异。实验证明第二种方法选出的关键词具有更为明显的分类能力，在100个关键词为特征项的实验中分类准确率可达98%。在开发工具和编程语言方面：在开源的TextRank和LIBSVM工具软件平台基础上，通过Perl和Python实现了以上维吾尔文区分性关键性词语提取系统，并对系统运行结果进行了分析。
[Abstract]:......
【学位授予单位】：新疆大学
【学位级别】：硕士
【学位授予年份】：2013
【分类号】：TP391.1

【参考文献】