基于词频统计的文本关键词提取方法
发布时间:2017-12-13 22:21
本文关键词:基于词频统计的文本关键词提取方法
更多相关文章: 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
【摘要】:针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。
【作者单位】: 河北师范大学数学与信息科学学院;河北师范大学河北省计算数学与应用重点实验室;河北师范大学移动物联网研究院;
【基金】:国家自然科学基金资助项目(71271067) 国家社会科学基金资助项目(13BTY011);国家社会科学基金重大项目(13&ZD091) 河北省高等学校科学技术研究项目(QN2014196) 河北师范大学硕士基金资助项目(201402002)~~
【分类号】:TP391.1
【正文快照】: 0引言随着互联网的飞速发展,各种文本信息迅速扩张,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩,用户可以通过阅读关键词快速明确文章主旨,从海量的文章中获取有用信息。关键词提取是信息处理领域的基,
本文编号:1286809
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1286809.html