基于专利文本的摘要生成技术研究

发布时间：2021-08-14 23:18

　　在国际竞争越来越激烈的今天,企业为了快速占领消费市场,提高国家的经济实力,都在不断的进行技术创新。专利作为一个企业乃至国家核心技术的代名词,在其中发挥着越来越重要作用,而对专利技术的相关研究,逐渐成为了人们所关注的焦点。在专利大数据时代,如何从海量的专利数据库中快速准确地检索出目标领域的专利,如何快速地发现相关专利的核心技术内容,成为专利技术分析中首先需要解决的问题。本课题在此背景下,借鉴自动文摘领域的相关研究,探索研究适用于专利文本摘要提取算法,提取专利文本中核心技术内容。首先考虑到经典的Text Rank摘要抽取式算法不能表达句子语义信息的缺点,本文以Glo Ve语义特征表示方法为参照,提出使用BERT预训练模型进行句向量表示的方法,并构成了基于Text Rank和BERT的摘要提取算法。其次本文根据专利文本的特点,考虑文本句子位置、句子长度与主题相关度等特征,对基于Text Rank和BERT的摘要提取算法所迭代计算的权重加以修正;同时考虑所生成摘要的冗余性,使用MMR算法对摘要候选句进行冗余处理,从而提出了基于改进的Text Rank和BERT的摘要提取算法。最后,本文以计算机...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：52 页

【学位级别】：硕士

【部分图文】：

基于专利文本的摘要生成技术研究

CBOW模型结构

模型图,模型,向量,输入矩阵

哈尔滨工业大学应用统计硕士专业学位论文-13-的预测目标是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)图2-2Skip-Gram模型其模型框架如图2-2所示，输入向量kx为一个维度为V的某个词的One-Hot向量，同理V表示所建立的语料库中词语的个数；经过输入矩阵NVW后，得到一个维度为N的稠密向量ih。输入矩阵NVW是训练需要得到的参数，可获得所有词的词向量；在输出矩阵VNW之后再经过一个Softmax回归；输出层是上下文词的One-Hot编码向量。2.2.3GloVe模型2014年Pennington等[31]认为Word2Vec词袋模型词袋模型仅仅考虑了词的局部信息，忽略了单词与局部上下文窗口外的信息的联系。他们在Word2Vec模型的基础上提出了GloVe词向量模型，它保留了局部窗口的共现信息，以整个语料库

框架图,框架,模型,句子

哈尔滨工业大学应用统计硕士专业学位论文-17-图2-3Transform模型框架BERT模型预训练过程中采用Masked语言模型（MaskedLanguageModel，简称“MLM”）来学习融合两个不同方向的文本特征。具体操作表现为随机选择一些词语将其遮蔽掉，并用“[Mask]”掩码来代替原始单词，然后在预训练过程中对其进行预测。对于BERT模型的输入主要有三部分组成：词语向量（TokenEmbedings）、段向量（SegmentEmbeddings）和位置向量（PositionalEmbeddings），如图2-4所示。对于词向量，其中每个句子的输入标记都是[CLS]，是用来表示整个句子的，可用于之后的分类任务。标记[SEP]是用来分隔两个句子的，对于句子分类任务，只需对一个句子进行输入，即对于单句仅使用一个段向量。对于段向量，主要用于刻画全局语义信息。对于位置向量，由于Transformer模型不能记住时序，而出现在文本不同位置的词所携带的语义信息存在差异，所以人为加入表

【参考文献】：
期刊论文
[1]基于Transformer的蒙汉神经机器翻译研究[J]. 高芬,苏依拉,牛向华,赵亚平,范婷婷,仁庆道尔吉.  计算机应用与软件. 2020(02)
[2]一种基于TextRank的中文自动摘要方法[J]. 石元兵,周俊,魏忠.  通信技术. 2019(09)
[3]基于TextRank和GloVe的自动文本摘要算法[J]. 徐驰,陈丽容.  中国新通信. 2019(09)
[4]文本摘要研究进展与趋势[J]. 明拓思宇,陈鸿昶.  网络与信息安全学报. 2018(06)
[5]基于TextRank的自动摘要优化算法[J]. 李娜娜,刘培玉,刘文锋,刘伟童.  计算机应用研究. 2019(04)
[6]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞.  计算机科学. 2016(06)

硕士论文
[1]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
[2]基于TextRank算法的单文档自动文摘研究[D]. 曹洋.南京大学 2016

本文编号：3343361

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/keyanlw/3343361.html

上一篇：CIAE科研工程项目管理研究
下一篇：用赤泥制备水泥的专利技术分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|