基于多特征的中文语义关键词提取方法的研究
发布时间:2021-01-03 06:11
信息技术的快速发展促使网络数据呈现几何式增长,导致数据量越来愈大,对文本信息有效的检索和利用也越来越困难。面对海量的信息,尤其是面对爆炸式增长的文本信息,高效的从海量文本中捕获到有用的信息,已经成为当前亟需解决的问题。为了解决这一问题,需要从文本中提取能够反映文本主题的中心词,这些词被称为关键词。关键词很好的体现了作者的思想以及文章的主题,能够使读者快速的了解一篇文章的主要内容,因此拥有一种熟练的自动关键词提取方法有着非常重要的研究意义。关键词作为文本核心内容地体现,不仅要反映词语地的重要性,还要能够反映文本与主题之间的相关性。而现有的针对关键词主题相关性的研究较少,而且多集中于对词语的语言概率模型或基于词典的研究,无法挖掘出词语的隐式语义特征。此外,在现实世界中大多数文本都没有提供标注关键词。如果采取人工标注的方法,不仅效率低下、费时费力,而且人的主观意识对标注结果影响比较大,所以手动分配关键词是一项非常耗时且繁琐的任务。综合以上因素,本文主要针对关键词的主题相关性以及标注语料较少的问题展开了研究,研究的主要内容如下:(1)本文提出了一种新的计算词语与文本主题之间相关性的方法。算法首...
【文章来源】:浙江工业大学浙江省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
数据保存形式
基于多特征的中文语义关键词提取方法的研究49型进行测试。为了选择合适的算法构建关键词分类模型,本文根据几种常用的分类算法做了多组对比实验。实验结果如表5-3所示,由表可以看出,在实验数据相同的条件下,SVM分类算法的准确率更高。所以本文选择SVM分类算法训练关键词分类模型。表5-3分类算法的准确率对比Table5-3.Comparisonofaccuracyratesofclassificationalgorithms分类算法训练集测试集PrecisionRecallFScorePrecisionRecallFScorek最近邻(KNN)0.75380.73980.74670.71830.70350.7108决策树(DT)0.85870.83130.84470.83290.78220.8067支持向量机(SVM)0.96930.80260.87810.87330.79180.8305逻辑回归(LR)0.78110.86920.82280.70070.69950.7001朴素贝叶斯(NB)0.88120.86130.87110.86490.78830.82485.3.2关键词提取个数不同对比关键词提取的个数对提取结果的准确率有一定的影响,为了考察本文方法的准确率随关键词提取个数的变化情况。本文通过改变关键词提取个数k(k=1,2,..,10),在系统上进行了多组实验,并将实验结果与传统的TFIDF、TextRank、YAKE方法实验结果进行了对比。(a)(b)(c)图5-2随关键词个数的变化结果Figure5-2.Resultsofchangeswiththenumberofkeywords
?c)显示了TFIDF方法和SFKE方法的FScore随着关键词提取个数的变化,由图可以看出,SFKE方法总体上都比TFIDF方法的FScore要高。两个方法都在关键词个数为5的情况下取最大值,且SFKE方法较TFIDF方法结果的FScore在关键词个数为5的情况下提升了0.21。5.3.3文本数量不同对比为了进一步对融合语义特征的关键词方法做进行验证,本文在提取关键词个数为5个的情况下,从3770篇测试文本中分别提取500篇、1000篇、1500篇、2000篇、2500篇、3000篇、3770篇文章进行多组实验,检验文本章数量的增长对关键词提准确率的影响。实验结果如图5-3所示。图5-3融合语义特征的关键词方法结果随文本数量的变化Figure5-3.Theresultofkeywordmethodwithsemanticfeaturesischangedwiththenumberoftexts
【参考文献】:
期刊论文
[1]基于语义扩展的汉语全覆盖关键词提取算法[J]. 李言武,郑勇. 控制工程. 2018(07)
[2]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[3]学术文本的结构功能识别——在关键词自动抽取中的应用[J]. 方龙,李信,黄永,陆伟. 情报学报. 2017(06)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]挖掘专利知识实现关键词自动抽取[J]. 陈忆群,周如旗,朱蔚恒,李梦婷,印鉴. 计算机研究与发展. 2016(08)
[6]基于同义词词林和《知网》的短语主题提取[J]. 曾聪,张东站. 厦门大学学报(自然科学版). 2015(02)
[7]利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 李湘东,曹环,丁丛,黄莉. 现代图书情报技术. 2015(02)
[8]基于语义的文档关键词提取方法[J]. 姜芳,李国和,岳翔. 计算机应用研究. 2015(01)
[9]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[10]基于语义的中文文本关键词提取算法[J]. 王立霞,淮晓永. 计算机工程. 2012(01)
本文编号:2954464
【文章来源】:浙江工业大学浙江省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
数据保存形式
基于多特征的中文语义关键词提取方法的研究49型进行测试。为了选择合适的算法构建关键词分类模型,本文根据几种常用的分类算法做了多组对比实验。实验结果如表5-3所示,由表可以看出,在实验数据相同的条件下,SVM分类算法的准确率更高。所以本文选择SVM分类算法训练关键词分类模型。表5-3分类算法的准确率对比Table5-3.Comparisonofaccuracyratesofclassificationalgorithms分类算法训练集测试集PrecisionRecallFScorePrecisionRecallFScorek最近邻(KNN)0.75380.73980.74670.71830.70350.7108决策树(DT)0.85870.83130.84470.83290.78220.8067支持向量机(SVM)0.96930.80260.87810.87330.79180.8305逻辑回归(LR)0.78110.86920.82280.70070.69950.7001朴素贝叶斯(NB)0.88120.86130.87110.86490.78830.82485.3.2关键词提取个数不同对比关键词提取的个数对提取结果的准确率有一定的影响,为了考察本文方法的准确率随关键词提取个数的变化情况。本文通过改变关键词提取个数k(k=1,2,..,10),在系统上进行了多组实验,并将实验结果与传统的TFIDF、TextRank、YAKE方法实验结果进行了对比。(a)(b)(c)图5-2随关键词个数的变化结果Figure5-2.Resultsofchangeswiththenumberofkeywords
?c)显示了TFIDF方法和SFKE方法的FScore随着关键词提取个数的变化,由图可以看出,SFKE方法总体上都比TFIDF方法的FScore要高。两个方法都在关键词个数为5的情况下取最大值,且SFKE方法较TFIDF方法结果的FScore在关键词个数为5的情况下提升了0.21。5.3.3文本数量不同对比为了进一步对融合语义特征的关键词方法做进行验证,本文在提取关键词个数为5个的情况下,从3770篇测试文本中分别提取500篇、1000篇、1500篇、2000篇、2500篇、3000篇、3770篇文章进行多组实验,检验文本章数量的增长对关键词提准确率的影响。实验结果如图5-3所示。图5-3融合语义特征的关键词方法结果随文本数量的变化Figure5-3.Theresultofkeywordmethodwithsemanticfeaturesischangedwiththenumberoftexts
【参考文献】:
期刊论文
[1]基于语义扩展的汉语全覆盖关键词提取算法[J]. 李言武,郑勇. 控制工程. 2018(07)
[2]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[3]学术文本的结构功能识别——在关键词自动抽取中的应用[J]. 方龙,李信,黄永,陆伟. 情报学报. 2017(06)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]挖掘专利知识实现关键词自动抽取[J]. 陈忆群,周如旗,朱蔚恒,李梦婷,印鉴. 计算机研究与发展. 2016(08)
[6]基于同义词词林和《知网》的短语主题提取[J]. 曾聪,张东站. 厦门大学学报(自然科学版). 2015(02)
[7]利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 李湘东,曹环,丁丛,黄莉. 现代图书情报技术. 2015(02)
[8]基于语义的文档关键词提取方法[J]. 姜芳,李国和,岳翔. 计算机应用研究. 2015(01)
[9]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[10]基于语义的中文文本关键词提取算法[J]. 王立霞,淮晓永. 计算机工程. 2012(01)
本文编号:2954464
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2954464.html