无监督的专利文本关键词提取研究

发布时间:2021-09-24 07:53
  随着科学技术的进步和人类文明的发展,专利文本作为一种能够对研究者的知识产权进行保护的客观形式而吸引了越来越多学者的研究兴趣。专利文本具有文本结构复杂、篇幅较长、专业性较强等特点,而专利文本的关键词作为一篇专利文本的高度概括词汇,可以快速帮助读者定位到专利文本以及了解专利文本的主要内容,可见专利文本的关键词提取是一项重要且基础的工作。现有的大多数关键词提取结果可读性较差,且容易造成关键词冗余。本文以提高专利关键词提取结果的准确性为目标,重点研究了无监督的关键词提取算法在专利文本中的应用,主要研究内容为以下两个方面:第一个方面:针对通用领域的无监督的方法在应用到专利文本领域时,专利关键词提取结果准确性较低的问题,提出了一种基于专利要素约束的文本嵌入关键词提取方法,该方法可直接从专利文本中提取重要的关键词。实验结果表明,本方法在仅考虑单篇专利文本下提取准确率以及召回率均高于传统的TF-IDF关键词提取方法、Text Rank关键词提取方法、LDA关键词提取方法,具有更好的效果。第二个方面:针对目前主题模型对于专利文本的关键词提取任务质量不高的问题,提出了基于专利要素的LDA主题模型关键词提取... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

无监督的专利文本关键词提取研究


停用表示例

【参考文献】:
期刊论文
[1]基于LDA主题模型的维吾尔语无监督词义消歧[J]. 袁扬,李晓,杨雅婷.  厦门大学学报(自然科学版). 2020(02)
[2]基于关键词的学术文本聚类集成研究[J]. 张颖怡,章成志,陈果.  情报学报. 2019(08)
[3]犹他大学科技成果运营模式对高校科技成果转化的启示[J]. 唐恒,赫英淇,罗成.  科技中国. 2019(05)
[4]基于专利摘要词嵌入分布式表示方法的改进[J]. 刘刚,曹雨虹,裴莹莹,李玉.  信息通信. 2019(04)
[5]基于LDA主题模型的专利文本分析应用研究[J]. 艾楚涵,熊新,吴建德.  科技和产业. 2019(03)
[6]融合多因素的TFIDF关键词提取算法研究[J]. 牛永洁,田成龙.  计算机技术与发展. 2019(07)
[7]基于词向量的向量空间模型的改进[J]. 殷功俊.  现代计算机(专业版). 2018(36)
[8]一种基于词加权LDA模型的专利文献分类方法[J]. 孙伟,刘文静,葛丽阁,余璇.  计算机技术与发展. 2019(03)
[9]将材质纳入我国外观设计专利设计要素的可行性初探[J]. 徐正兴,裴松伟.  中国发明与专利. 2018(12)
[10]基于加权词向量和LSTM-CNN的微博文本分类研究[J]. 马远浩,曾卫明,石玉虎,徐鹏.  现代计算机(专业版). 2018(25)

硕士论文
[1]基于平行语料库的无监督中文词性标注研究[D]. 孙静.苏州大学 2010



本文编号:3407389

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3407389.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户43232***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com