基于专利文本的摘要生成技术研究
发布时间:2021-08-14 23:18
在国际竞争越来越激烈的今天,企业为了快速占领消费市场,提高国家的经济实力,都在不断的进行技术创新。专利作为一个企业乃至国家核心技术的代名词,在其中发挥着越来越重要作用,而对专利技术的相关研究,逐渐成为了人们所关注的焦点。在专利大数据时代,如何从海量的专利数据库中快速准确地检索出目标领域的专利,如何快速地发现相关专利的核心技术内容,成为专利技术分析中首先需要解决的问题。本课题在此背景下,借鉴自动文摘领域的相关研究,探索研究适用于专利文本摘要提取算法,提取专利文本中核心技术内容。首先考虑到经典的Text Rank摘要抽取式算法不能表达句子语义信息的缺点,本文以Glo Ve语义特征表示方法为参照,提出使用BERT预训练模型进行句向量表示的方法,并构成了基于Text Rank和BERT的摘要提取算法。其次本文根据专利文本的特点,考虑文本句子位置、句子长度与主题相关度等特征,对基于Text Rank和BERT的摘要提取算法所迭代计算的权重加以修正;同时考虑所生成摘要的冗余性,使用MMR算法对摘要候选句进行冗余处理,从而提出了基于改进的Text Rank和BERT的摘要提取算法。最后,本文以计算机...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
CBOW模型结构
哈尔滨工业大学应用统计硕士专业学位论文-13-的预测目标是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)图2-2Skip-Gram模型其模型框架如图2-2所示,输入向量kx为一个维度为V的某个词的One-Hot向量,同理V表示所建立的语料库中词语的个数;经过输入矩阵NVW后,得到一个维度为N的稠密向量ih。输入矩阵NVW是训练需要得到的参数,可获得所有词的词向量;在输出矩阵VNW之后再经过一个Softmax回归;输出层是上下文词的One-Hot编码向量。2.2.3GloVe模型2014年Pennington等[31]认为Word2Vec词袋模型词袋模型仅仅考虑了词的局部信息,忽略了单词与局部上下文窗口外的信息的联系。他们在Word2Vec模型的基础上提出了GloVe词向量模型,它保留了局部窗口的共现信息,以整个语料库
哈尔滨工业大学应用统计硕士专业学位论文-17-图2-3Transform模型框架BERT模型预训练过程中采用Masked语言模型(MaskedLanguageModel,简称“MLM”)来学习融合两个不同方向的文本特征。具体操作表现为随机选择一些词语将其遮蔽掉,并用“[Mask]”掩码来代替原始单词,然后在预训练过程中对其进行预测。对于BERT模型的输入主要有三部分组成:词语向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(PositionalEmbeddings),如图2-4所示。对于词向量,其中每个句子的输入标记都是[CLS],是用来表示整个句子的,可用于之后的分类任务。标记[SEP]是用来分隔两个句子的,对于句子分类任务,只需对一个句子进行输入,即对于单句仅使用一个段向量。对于段向量,主要用于刻画全局语义信息。对于位置向量,由于Transformer模型不能记住时序,而出现在文本不同位置的词所携带的语义信息存在差异,所以人为加入表
【参考文献】:
期刊论文
[1]基于Transformer的蒙汉神经机器翻译研究[J]. 高芬,苏依拉,牛向华,赵亚平,范婷婷,仁庆道尔吉. 计算机应用与软件. 2020(02)
[2]一种基于TextRank的中文自动摘要方法[J]. 石元兵,周俊,魏忠. 通信技术. 2019(09)
[3]基于TextRank和GloVe的自动文本摘要算法[J]. 徐驰,陈丽容. 中国新通信. 2019(09)
[4]文本摘要研究进展与趋势[J]. 明拓思宇,陈鸿昶. 网络与信息安全学报. 2018(06)
[5]基于TextRank的自动摘要优化算法[J]. 李娜娜,刘培玉,刘文锋,刘伟童. 计算机应用研究. 2019(04)
[6]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞. 计算机科学. 2016(06)
硕士论文
[1]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
[2]基于TextRank算法的单文档自动文摘研究[D]. 曹洋.南京大学 2016
本文编号:3343361
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
CBOW模型结构
哈尔滨工业大学应用统计硕士专业学位论文-13-的预测目标是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)图2-2Skip-Gram模型其模型框架如图2-2所示,输入向量kx为一个维度为V的某个词的One-Hot向量,同理V表示所建立的语料库中词语的个数;经过输入矩阵NVW后,得到一个维度为N的稠密向量ih。输入矩阵NVW是训练需要得到的参数,可获得所有词的词向量;在输出矩阵VNW之后再经过一个Softmax回归;输出层是上下文词的One-Hot编码向量。2.2.3GloVe模型2014年Pennington等[31]认为Word2Vec词袋模型词袋模型仅仅考虑了词的局部信息,忽略了单词与局部上下文窗口外的信息的联系。他们在Word2Vec模型的基础上提出了GloVe词向量模型,它保留了局部窗口的共现信息,以整个语料库
哈尔滨工业大学应用统计硕士专业学位论文-17-图2-3Transform模型框架BERT模型预训练过程中采用Masked语言模型(MaskedLanguageModel,简称“MLM”)来学习融合两个不同方向的文本特征。具体操作表现为随机选择一些词语将其遮蔽掉,并用“[Mask]”掩码来代替原始单词,然后在预训练过程中对其进行预测。对于BERT模型的输入主要有三部分组成:词语向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(PositionalEmbeddings),如图2-4所示。对于词向量,其中每个句子的输入标记都是[CLS],是用来表示整个句子的,可用于之后的分类任务。标记[SEP]是用来分隔两个句子的,对于句子分类任务,只需对一个句子进行输入,即对于单句仅使用一个段向量。对于段向量,主要用于刻画全局语义信息。对于位置向量,由于Transformer模型不能记住时序,而出现在文本不同位置的词所携带的语义信息存在差异,所以人为加入表
【参考文献】:
期刊论文
[1]基于Transformer的蒙汉神经机器翻译研究[J]. 高芬,苏依拉,牛向华,赵亚平,范婷婷,仁庆道尔吉. 计算机应用与软件. 2020(02)
[2]一种基于TextRank的中文自动摘要方法[J]. 石元兵,周俊,魏忠. 通信技术. 2019(09)
[3]基于TextRank和GloVe的自动文本摘要算法[J]. 徐驰,陈丽容. 中国新通信. 2019(09)
[4]文本摘要研究进展与趋势[J]. 明拓思宇,陈鸿昶. 网络与信息安全学报. 2018(06)
[5]基于TextRank的自动摘要优化算法[J]. 李娜娜,刘培玉,刘文锋,刘伟童. 计算机应用研究. 2019(04)
[6]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞. 计算机科学. 2016(06)
硕士论文
[1]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
[2]基于TextRank算法的单文档自动文摘研究[D]. 曹洋.南京大学 2016
本文编号:3343361
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3343361.html