当前位置:主页 > 科技论文 > 软件论文 >

基于多特征抽取文本关键词算法的研究

发布时间:2022-02-14 03:38
  近几年,由于文献信息或者短篇新闻的数量呈现指数级增长,而且这些文本的信息量无时无刻不在增加。因此,如何从信息中抽取出具有重要意义的关键词,利用信息抽取技术对文本分类,并满足信息检索的需要,已经成为当前时期在自然语言处理领域研究的热点。传统的关键词提取方法主要使用TF-IDF算法,通过对不同领域,设置大小不同的阈值,来提取文本关键词,这种方法虽然速度快,适合搜索引擎的应用,但是受偶然性和领域局限性较大,准确率忽高忽低。而基于语义提取文本关键词的算法,能够达到词与词之间的词义分析层面,但是不同需求的人,理解文本的方式千差万别的,因此阅读同样的文章能够得到不同的关键词结果。信息抽取技术如果在语义的基础上综合词的多种特征,并能推断出用户的主观偏好,那么提取关键词的结果,不仅能满足不同人的需求又不失全面性,而且能适合不同场景的文本的关键词提取,提高关键词抽取技术的准确性和稳定性。因此,本文基于上述问题的现状进行深入研究,为了满足不同偏好关键词需求的目的,本文工作主要有以下四个方面:1.提出了一种基于WordNet语义词典下的DIP(Distance Information Property)语义... 

【文章来源】:吉林大学吉林省211工程院校985工程院校教育部直属院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于多特征抽取文本关键词算法的研究


ACL2017投稿的各领域占比

网络结构图,语义词,网络结构,名词


第2章关键词提取相关算法与技术10图2.1WordNet语义词典的网络结构(1)同义反义关系同义关系,就是指两种表达方式在英文文本中可以相互替换,却不会改变文本的原意,则这两种表达的就是同义关系。如:{heavy,weighty,ponderous}、{light,weightless,airly}。反义关系,表示一种词形关系,不是关于概念之间的关系。如:{heavy,light}、{weighty,weightless}。WordNet中的形容词反义关系不同于名词,包括直接反义词词对和间接反义词词对,形容词簇采用N维超空间结构表示,如图2.2所示。(2)上下位关系上下位关系,就是isa关系,是WordNet语义词典的名词中最普遍的两种关系[31],也可以叫做子集关系或者从属关系。如:AisakindofB.其中A是B的上位关系,B是A的下位关系。在名词中使用这种上下位关系,可以表示名词的继承系统,如:柳树->树木->植物->生物(willow->tree->plant->organisms),通过词汇链的所有属性构成了名词间的层次关系。(3)整体部分关系整理部分关系,就是partof关系,表示一个词义是另一个词义的一部分,和上下位关系一样,是一种不对称关系。如:AisapartofB.其中A是B的部分,B是A的整体(如轮子->车,wheel->car)。

语义词,反义关系,多义词


第2章关键词提取相关算法与技术11图2.2WordNet语义词典的同义反义关系(4)整体成分关系整体成分关系,就是substanceof关系,表示一个概念是另一个概念的成分。如:AisasubstanceofB.其中A是B的成分,B是A的整体(如小学生->学生,pupil->student)。(5)集合成员关系集合成员关系,就是memberof关系,表示一个词的概念是另一个词概念的成员。如:AisamemberofB.其中A是B的成员,B是A的整体(如木头->桌子,wood->table)。2.1.2WordNet2.1简介WordNet2.1是2005年发布的最后的适用于Windows的版本,该版本共包含207016个词义对数,其中单词分为名词、动词、形容词、副词四类组成,四类的概念数达到1175997个,不同的单词数为155327个,如表2.1所示。词典中的多义词信息中,单义词总数达到128321个,多义词总计27006个,多义词语义词数总计78695个,如表2.2所示。多义词的平均词义个数包括单义词与不包括单义词的比率,如表2.3所示。

【参考文献】:
期刊论文
[1]融合语义特征的关键词提取方法[J]. 高楠,李利娟,李伟,祝建明.  计算机科学. 2020(03)
[2]融合多元特征的中文网页关键词提取方法研究[J]. 张孝飞.  图书馆. 2020(01)
[3]基于卷积神经网络的关键词提取方法[J]. 孙梦博.  计算机产品与流通. 2020(01)
[4]结合语义相似度改进LDA的文本主题分析[J]. 赵林静.  计算机工程与设计. 2019(12)
[5]基于编辑距离和同义词词林的中文百科知识库三元组降噪方法研究[J]. 谷函哲,王汀,高静,刘经纬.  信息系统工程. 2019(10)
[6]基于关键词和关键句抽取的用户评论情感分析[J]. 喻影,陈珂,寿黎但,陈刚,吴晓凡.  计算机科学. 2019(10)
[7]多特征融合的句子语义相似度计算方法[J]. 翟社平,李兆兆,段宏宇,李婧,董迪迪.  计算机工程与设计. 2019(10)
[8]融合主题词嵌入和网络结构分析的主题关键词提取方法[J]. 曾庆田,胡晓慧,李超.  数据分析与知识发现. 2019(07)
[9]基于主题模型的多关键词搜索加密方法[J]. 王文涛,马永东,王银款.  成都大学学报(自然科学版). 2019(02)
[10]融合多因素的TFIDF关键词提取算法研究[J]. 牛永洁,田成龙.  计算机技术与发展. 2019(07)



本文编号:3624169

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3624169.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0b53b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com