主题词匹配的收藏文档标题分类研究

发布时间:2021-07-15 08:45
  在信息爆炸的背景下,信息泛滥、信息超载、信息浪费问题日益严重。对高价值信息进行规范化管理与自动分类,对于完善团队文档管理体系、构建个人知识体系具有重要意义。针对收藏文档标题短文本分类这一问题,提出一种无监督主题词抽取算法,并定义主题词表示,然后基于主题词表示对文档标题进行标注,进而解决自动分类问题。为消除分类目标的模糊性与不同用户的差异性,首先定义了主题词选取规范,对主题词选取范围以及主题词粒度进行合理限定;又提出一种基于自定义富标签的文档分类规范。此外,定义了共现项集、共现项关系类型概念,与候选主题词判别条件作为主题词抽取算法的基础研究条件。主题词抽取算法可分为4个步骤:文档集预处理、候选主题词选择、主题词集精简优化与主题词表示。在文档集预处理阶段,设计了一种多元短语提取算法,能够高效地提取二元短语及高元短语。随后设计了候选主题词选择算法,获取候选主题词集与主题词的共现项集。在主题词集精简优化阶段,先后采取精简等价特征项、消除完全构成词冗余构成项、消除双向构成关系、消除短语构成词策略,精简主题词集与共现项集,筛选出高质量的主题词,消除共现项集的冗余。在主题词表示阶段,将共现项集分解为... 

【文章来源】:辽宁工程技术大学辽宁省

【文章页数】:81 页

【学位级别】:硕士

【部分图文】:

主题词匹配的收藏文档标题分类研究


文本挖掘过程示意图

框架图,主题词,框架图,短语


辽宁工程技术大学硕士学位论文30主题词抽取及分类阶段框架图如图3.2所示。图3.2主题词抽取及分类阶段框架图Figure3.2Frameworkofsubjectextractionandclassificationstage3.3数据集预处理3.2.1节对自动分类预处理阶段进行了全面概述,本节着重介绍短语提取改进算法与基于TextRank算法的标签停用词提取步骤,其他预处理步骤不再赘述。3.3.1多元短语提取算法2.3.1节关于关键词的定义说明了关键词既可以是关键单词,又可以是关键短语,通过提取关键短语能够发现一部分未登录词。gensim工具包Phrases模块等大部分短语提取算法都需要指定构成短语的单词个数,再分别提取二元短语或三元短语等多元短语。若同时提取多元短语则会导致性能低下。此外,在以本文数据集作为输入时,Phrases模块在提取

流程图,算法,主题词,特征项


辽宁工程技术大学硕士学位论文34如果数据规模更大,可以将阈值相应调大,从而舍弃低频信息。算法2:候选主题词选择算法流程图如图3.3所示:图3.3候选主题词选择算法Figure3.3Candidatesubjectwordselectionalgorithm算法具体流程为:(1)算法开始,根据预处理文档集X,特征项集合t(包括特征词与特征短语)初始

【参考文献】:
期刊论文
[1]短文本分类技术研究综述[J]. 邓丁朋,周亚建,池俊辉,李佳乐.  软件. 2020(02)
[2]一种基于注意力机制的中文短文本关键词提取模型[J]. 杨丹浩,吴岳辛,范春晓.  计算机科学. 2020(01)
[3]基于频繁模式的长尾文本聚类算法[J]. 宋中山,张广凯,尹帆,帖军.  计算机系统应用. 2019(04)
[4]基于因子图模型的动态图半监督聚类算法[J]. 张建朋,裴雨龙,刘聪,李邵梅,陈鸿昶.  自动化学报. 2020(04)
[5]基于主题模型的短文本关键词抽取及扩展[J]. 曾曦,阳红,常明芳,冯骁骋,赵妍妍,秦兵.  山西大学学报(自然科学版). 2019(02)
[6]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕.  计算机研究与发展. 2018(01)
[7]微博主题发现研究方法述评[J]. 梁晓贺,田儒雅,吴蕾,张学福.  图书情报工作. 2017(14)
[8]面向新闻评论的短文本增量聚类算法[J]. 刘晓琳,曹付元,梁吉业.  计算机科学与探索. 2018(06)
[9]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[10]融合HowNet和BTM模型的短文本聚类方法[J]. 阳小兰,杨威,钱程,朱福喜.  计算机工程与设计. 2017(05)

博士论文
[1]面向主题的关键词抽取方法研究[D]. 丁卓冶.复旦大学 2013

硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]微博用户兴趣的提取和动态建模[D]. 郑磊.太原理工大学 2017
[3]TF-IDF与规则结合的中文关键词自动抽取研究[D]. 牛萍.大连理工大学 2015



本文编号:3285382

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3285382.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户206c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com