基于深度学习技术的绝句生成方法研究
发布时间:2021-02-24 10:16
诗歌是一种凝练而特别的文学形式,中国传统诗歌作为我国重要的文化遗产,体现了劳动人民非凡的智慧和创造力。绝句是中国传统诗歌中具有代表性的诗歌体裁,其在结构、平仄、押韵等方面都有严格的要求。创作一首合格的绝句对于普通人来说并不是件容易的事情,而对于计算机来说,如何自动生成绝句同样是充满挑战的课题。对绝句自动生成的研究,一方面可以降低诗歌创作门槛,让普通民众感受诗歌创作的魅力,有利于中华传统文化的传承;另一方面,绝句生成的研究让计算机进行文学创作成为可能,将给传统诗人及诗歌研究人员带来冲击,一定程度上将促进中国传统诗歌的创新与发展;同时绝句生成作为自然语言处理领域一项特别且有趣的研究,可启发其他文本类型的生成研究,促进自然语言处理相关技术的发展。因此对绝句生成的研究具有现实意义。绝句等体裁诗歌生成的研究,经历了基于规则和模板的生成方法、基于统计机器学习的方法和基于深度学习的方法三个阶段,前两类方法生成的诗歌通常需要人工参与,且常出现较低级的错误,而随着深度学习技术的不断发展,基于深度学习的方法在诗歌生成中表现优异,成为了主流。本文在现有绝句生成方法基础上,针对绝句生成中主题漂移、语义不连贯等...
【文章来源】:江西师范大学江西省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
孟浩然五言绝句《春晓》
基于深度学习技术的绝句生成方法研究52基于关键词转换扩展的绝句生成模型设计2.1绝句生成问题描述本文绝句生成的研究基于深度学习技术,其整体流程如图2-1。图2-1:基于深度学习技术的绝句生成整体流程图在绝句生成的研究中,首先对绝句数据集进行收集整理;特征工程阶段对绝句数据进行文本表示,接着将收集的绝句数据预处理,让计算机可以更好的理解处理绝句数据;然后将数据分为测试集、训练集和验证集,使用训练集对深度学习模型进行迭代训练,得到绝句生成最优模型;验证集用于验证模型的性能;测试集用于对训练完成的绝句生成模型进行测试评价。2.2相关工作绝句是中国传统诗歌中具有代表性的诗歌体裁,对于绝句生成相关工作的研究,可看作是诗歌生成相关工作的研究,因此本节对基于深度学习技术的绝句生成相关工作的阐述主要从诗歌生成相关工作进行阐述。20世纪60年代,国外便出现了诗歌生成的相关研究,而国内对于相关研究相对起步较晚,直到20世纪90年代才出现中文诗歌的生成研究,在将近60年的不断研究探索过程中,涌现了许多方法,诗歌生成的研究大致经历了基于规则和模板的生成方法、基于统计机器学习的方法和基于深度学习的方法三个阶段。基于规则和模板的生成方法阶段主要有基于模板的方法[6][7][8]、基于实例推理的方法[9],这类方法更多的是通过模板设定进行填空组合生成,生成的诗歌很不连贯,甚至不能称作传统意义上的诗歌。在基于统计机器学习阶段,周昌乐等人在宋词生成中引入遗传算法,把宋词生成看作是最优化问题[10];Yan等人把
基于深度学习技术的绝句生成方法研究9图2-2:基于关键词转换扩展的绝句生成模型框架图2.3.1关键词转换在关键词转换阶段,用户可输入任意文本序列作为写作意图,该文本序列可以是一个主题词、一个句子或是一段话。在以往的诗歌生成中[17],关键词提取阶段将从用户输入文本序列中提取出多个关键词,使得关键词数量与诗歌总行数相同,若不够再进行关键词扩展,达到关键词与诗歌总行数相等。该模型在提取多个主题词时,易造成写作意图表达不明确的问题,如在PPG模型中当输入句子“春天像一位姑娘,踏着轻盈的脚步来了”,经过关键词提取,将提取出“春天”、“姑娘”两个关键词,再经过主题词扩展,生成诗歌。这句话主题关键词应该是“春天”,但因为模型选择多个主题词,“姑娘”和“春天”相关性低,因此容易造成主题偏离问题,同时提取的主题词过于白话文,不利于后续诗歌生成。而本文提出的KTEQG绝句生成模型在用户写作意图关键词(主题词)提取时,为了明确写作主题,只提取评分最高的唯一关键词。因确定的唯一关键词容易出现白话文词语,其与诗词预料库中的古文词语不匹配,不利于子主题词生成和诗歌的生成,因此确定唯一关键词后,还将进行文言文词语转换,确定唯一文言文主题关键字词。下面将对主题关键词提取及转换的具体实现进行介绍。关键词提取主要目标是从文本中自动提取出可以表示文本内容的词语。关键词提取可分为有监督、半监督和无监督的方法[22],有监督方法将关键词提取看作二元分类的问题,该方法须先提供已标注关键词的训练语料,然后才能对关键词进行判断提取,也就是说要先通过语料训练获得关键词提取模型,然后再基于模型进行关键词提龋半监督方法需要人工参与,非全自动的实现,无需大量的训练数据,只需部分语?
【参考文献】:
期刊论文
[1]论诗歌评价的标准:从柏拉图到朱光潜[J]. 王改娣. 英美文学研究论丛. 2019(02)
[2]基于古诗文知识图谱的诗词创作系统[J]. 李星宇,王丽娟. 计算机产品与流通. 2019(04)
[3]唐诗宋词赏析——中国古典诗歌的鉴赏艺术[J]. 梅敬忠. 领导科学论坛. 2018(16)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]从图灵测试到深度学习:人工智能60年[J]. 万赟. 科技导报. 2016(07)
[6]空间信息的自然语言表达模型[J]. 杜清运,任福. 武汉大学学报(信息科学版). 2014(06)
[7]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[8]一种宋词自动生成的遗传算法及其机器实现[J]. 周昌乐,游维,丁晓君. 软件学报. 2010(03)
硕士论文
[1]唐绝句章法艺术研究[D]. 冯佳宁.南京师范大学 2018
[2]基于深度学习技术的中国传统诗歌生成方法研究[D]. 王哲.中国科学技术大学 2017
[3]基于长短时记忆网络的中文文本情感分析[D]. 李丹.北京邮电大学 2017
[4]基于TextRank算法的单文档自动文摘研究[D]. 曹洋.南京大学 2016
本文编号:3049219
【文章来源】:江西师范大学江西省
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
孟浩然五言绝句《春晓》
基于深度学习技术的绝句生成方法研究52基于关键词转换扩展的绝句生成模型设计2.1绝句生成问题描述本文绝句生成的研究基于深度学习技术,其整体流程如图2-1。图2-1:基于深度学习技术的绝句生成整体流程图在绝句生成的研究中,首先对绝句数据集进行收集整理;特征工程阶段对绝句数据进行文本表示,接着将收集的绝句数据预处理,让计算机可以更好的理解处理绝句数据;然后将数据分为测试集、训练集和验证集,使用训练集对深度学习模型进行迭代训练,得到绝句生成最优模型;验证集用于验证模型的性能;测试集用于对训练完成的绝句生成模型进行测试评价。2.2相关工作绝句是中国传统诗歌中具有代表性的诗歌体裁,对于绝句生成相关工作的研究,可看作是诗歌生成相关工作的研究,因此本节对基于深度学习技术的绝句生成相关工作的阐述主要从诗歌生成相关工作进行阐述。20世纪60年代,国外便出现了诗歌生成的相关研究,而国内对于相关研究相对起步较晚,直到20世纪90年代才出现中文诗歌的生成研究,在将近60年的不断研究探索过程中,涌现了许多方法,诗歌生成的研究大致经历了基于规则和模板的生成方法、基于统计机器学习的方法和基于深度学习的方法三个阶段。基于规则和模板的生成方法阶段主要有基于模板的方法[6][7][8]、基于实例推理的方法[9],这类方法更多的是通过模板设定进行填空组合生成,生成的诗歌很不连贯,甚至不能称作传统意义上的诗歌。在基于统计机器学习阶段,周昌乐等人在宋词生成中引入遗传算法,把宋词生成看作是最优化问题[10];Yan等人把
基于深度学习技术的绝句生成方法研究9图2-2:基于关键词转换扩展的绝句生成模型框架图2.3.1关键词转换在关键词转换阶段,用户可输入任意文本序列作为写作意图,该文本序列可以是一个主题词、一个句子或是一段话。在以往的诗歌生成中[17],关键词提取阶段将从用户输入文本序列中提取出多个关键词,使得关键词数量与诗歌总行数相同,若不够再进行关键词扩展,达到关键词与诗歌总行数相等。该模型在提取多个主题词时,易造成写作意图表达不明确的问题,如在PPG模型中当输入句子“春天像一位姑娘,踏着轻盈的脚步来了”,经过关键词提取,将提取出“春天”、“姑娘”两个关键词,再经过主题词扩展,生成诗歌。这句话主题关键词应该是“春天”,但因为模型选择多个主题词,“姑娘”和“春天”相关性低,因此容易造成主题偏离问题,同时提取的主题词过于白话文,不利于后续诗歌生成。而本文提出的KTEQG绝句生成模型在用户写作意图关键词(主题词)提取时,为了明确写作主题,只提取评分最高的唯一关键词。因确定的唯一关键词容易出现白话文词语,其与诗词预料库中的古文词语不匹配,不利于子主题词生成和诗歌的生成,因此确定唯一关键词后,还将进行文言文词语转换,确定唯一文言文主题关键字词。下面将对主题关键词提取及转换的具体实现进行介绍。关键词提取主要目标是从文本中自动提取出可以表示文本内容的词语。关键词提取可分为有监督、半监督和无监督的方法[22],有监督方法将关键词提取看作二元分类的问题,该方法须先提供已标注关键词的训练语料,然后才能对关键词进行判断提取,也就是说要先通过语料训练获得关键词提取模型,然后再基于模型进行关键词提龋半监督方法需要人工参与,非全自动的实现,无需大量的训练数据,只需部分语?
【参考文献】:
期刊论文
[1]论诗歌评价的标准:从柏拉图到朱光潜[J]. 王改娣. 英美文学研究论丛. 2019(02)
[2]基于古诗文知识图谱的诗词创作系统[J]. 李星宇,王丽娟. 计算机产品与流通. 2019(04)
[3]唐诗宋词赏析——中国古典诗歌的鉴赏艺术[J]. 梅敬忠. 领导科学论坛. 2018(16)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]从图灵测试到深度学习:人工智能60年[J]. 万赟. 科技导报. 2016(07)
[6]空间信息的自然语言表达模型[J]. 杜清运,任福. 武汉大学学报(信息科学版). 2014(06)
[7]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[8]一种宋词自动生成的遗传算法及其机器实现[J]. 周昌乐,游维,丁晓君. 软件学报. 2010(03)
硕士论文
[1]唐绝句章法艺术研究[D]. 冯佳宁.南京师范大学 2018
[2]基于深度学习技术的中国传统诗歌生成方法研究[D]. 王哲.中国科学技术大学 2017
[3]基于长短时记忆网络的中文文本情感分析[D]. 李丹.北京邮电大学 2017
[4]基于TextRank算法的单文档自动文摘研究[D]. 曹洋.南京大学 2016
本文编号:3049219
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3049219.html
最近更新
教材专著