当前位置:主页 > 科技论文 > 软件论文 >

中文文章与主题关键短语提取方法研究

发布时间:2021-12-22 08:40
  随着互联网技术的不断发展,日益增多的网民所产生的文本信息有待及时有效的处理。因此,高效的文本挖掘技术就成为关键性研究课题,其中,文章关键短语与主题关键短语提取技术是文本挖掘的基础研究内容,它们共同影响着文本挖掘在各个领域中的应用质量。目前,文章关键短语与主题关键短语提取技术被广泛应用于许多领域,如:关键词搜索引擎、语音识别、文本情感分析和用户商品智能推荐等。本文的主要工作是基于统计、自然语言处理和机器学习,在原有三种经典算法的基础上提出了改进后的三个关键短语提取方案,本文的具体研究内容和研究结果如下:(1)提出了一种基于TF-IDF与多特征约束的中文关键短语提取方法。首先,分析了TF-IDF统计量设定的局限性,根据中文词语特点加入更多约束条件完成多特征约束,然后,加入了顺序组合技术来弥补TF-IDF无法提取短语的缺陷,在此基础上融入中文分词系统与改进的短语排序技术共同构成该方案主体,并在大量实验中完成算法具体参数的定值。最后,给出了该方案与国内外经典相关算法的对比实验结果,从量化的数值上可以看出本方案的关键短语挖掘效果相对于对比算法有显著的提升。(2)针对经典的关键短语提取算法所提取关... 

【文章来源】:西安理工大学陕西省

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

中文文章与主题关键短语提取方法研究


短语长度比例图

性比例,先验概率


示每个短语的先验概率差别很大,如果不考虑其中的先验概率对于某些词语来说存在有很大的“不公平”性。公式 3-2 中参数定值实验与公式 3-1 类似,具体实验结果如图 3-3 所示,图 3-3 中横坐标 1 到 5 依次代表短语由名词、动词+名词、动词+形容词、动词+形容词+名词、其他词性组合而成。图 3-3 中我们可以看出关键短语属于纯名词词性的先验概率是最大的,这也与我们中文表达方式密不可分。据此我们将公式 3-2 中各个参数1a 、2a 、3a 、4a 、5a 依次定为 0.47、0.28、0.15、0.07、0.03。接下来给定 3.2.5 节中 Step4 的取值,本方案通过给定参数不同数值后 F 值的走势来确定阈值,具体实验结果如图 3-4 所示,其中我们可以明显看出当阈值取 0.07 时,可以达到最大 F 值,因此本文阈值确定为 0.07。最终本方案将确定公式 3-9 中的参数,具体实验思路与图 3-4 思路类似,同样通过参数在不同取值下 F 值的变化规律来确定参数。具体实验结果如表 3-2 所示。其中我们看出公式 3-9 中所定义的两个指标对于短语提取结果有着十分密切的联系。从表中我们看出,当忽视其中一个指标,过多的减少它的权重会带来 F 值的快速下降。通过反复试验,我们最终将1 确定为 0.6,2 确定为 0.4。至此本方案所有参数都已给定。

走势图,阈值


示每个短语的先验概率差别很大,如果不考虑其中的先验概率对于某些词语来说存在有很大的“不公平”性。公式 3-2 中参数定值实验与公式 3-1 类似,具体实验结果如图 3-3 所示,图 3-3 中横坐标 1 到 5 依次代表短语由名词、动词+名词、动词+形容词、动词+形容词+名词、其他词性组合而成。图 3-3 中我们可以看出关键短语属于纯名词词性的先验概率是最大的,这也与我们中文表达方式密不可分。据此我们将公式 3-2 中各个参数1a 、2a 、3a 、4a 、5a 依次定为 0.47、0.28、0.15、0.07、0.03。接下来给定 3.2.5 节中 Step4 的取值,本方案通过给定参数不同数值后 F 值的走势来确定阈值,具体实验结果如图 3-4 所示,其中我们可以明显看出当阈值取 0.07 时,可以达到最大 F 值,因此本文阈值确定为 0.07。最终本方案将确定公式 3-9 中的参数,具体实验思路与图 3-4 思路类似,同样通过参数在不同取值下 F 值的变化规律来确定参数。具体实验结果如表 3-2 所示。其中我们看出公式 3-9 中所定义的两个指标对于短语提取结果有着十分密切的联系。从表中我们看出,当忽视其中一个指标,过多的减少它的权重会带来 F 值的快速下降。通过反复试验,我们最终将1 确定为 0.6,2 确定为 0.4。至此本方案所有参数都已给定。

【参考文献】:
期刊论文
[1]知识网络情绪互信息熵检测[J]. 涂坤,孙彬,王东.  沈阳工业大学学报. 2018(03)
[2]汉语同义语素构词能力差异历时演变探析[J]. 马思奇.  北方文学. 2018(05)
[3]基于改进的TF-IDF算法及共现词的主题词抽取算法[J]. 公冶小燕,林培光,任威隆,张晨,张春云.  南京大学学报(自然科学). 2017(06)
[4]基于词频统计规律的文本数据预处理方法[J]. 池云仙,赵书良,罗燕,高琳,赵骏鹏,李超.  计算机科学. 2017(10)
[5]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[6]词向量聚类加权TextRank的关键词抽取[J]. 夏天.  数据分析与知识发现. 2017(02)
[7]关键短语抽取研究现状[J]. 李珊珊,周耘立.  现代计算机(专业版). 2017(02)
[8]关键词自动抽取技术综述[J]. 宋宇,真溱.  情报理论与实践. 2016(07)
[9]基于朴素贝叶斯的文本分类研究综述[J]. 贺鸣,孙建军,成颖.  情报科学. 2016(07)
[10]基于词向量的中文词汇蕴涵关系识别[J]. 张志昌,周慧霞,姚东任,鲁小勇.  计算机工程. 2016(02)

硕士论文
[1]基于层次多词表达的文本匹配研究[D]. 赵宇.北京邮电大学 2011
[2]关键短语抽取及相关技术研究[D]. 姜舟.哈尔滨工业大学 2010



本文编号:3546102

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3546102.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户843a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com