基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
发布时间:2018-04-25 16:46
本文选题:维吾尔语 + 文本分类 ; 参考:《计算机科学》2016年12期
【摘要】:针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。
[Abstract]:Aiming at the problem of Uygur Chinese text classification, a method of Uygur keyword extraction and text classification based on TextRank algorithm and mutual information similarity is proposed. First, the input text is preprocessed to filter the characters and stop words except Uygur. Then, the text keyword set is extracted by using the TextRank algorithm, which is weighted by semantic similarity, word position and word frequency. According to the similarity measure of mutual information, the similarity between input text keyword sets and all kinds of keyword sets is calculated, and finally the text classification is realized. The experimental results show that the scheme can extract keywords with high recognition degree. When the size of keyword set is 1250, the average classification rate reaches 91.2%.
【作者单位】: 中国科学院新疆理化技术研究所;中国科学院大学;新疆多语种信息技术重点实验室;
【基金】:新疆多语种信息技术重点实验室开放课题(XJDX0905-2013-06)资助
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前1条
1 夏天;;词语位置加权TextRank的关键词抽取研究[J];现代图书情报技术;2013年09期
,本文编号:1802151
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1802151.html