基于语料库的小学写作推荐机制设计与开发
发布时间:2020-05-16 23:54
【摘要】:写作在语言学习过程中扮演着非常重要的角色。在实际写作过程中学生常常需要根据相应的生活情境和具体要求进行写作,然而想要写出符合题意、结构合理、语句通顺的文章却是非常困难的。所以学生在写作过程中经常会面临词汇选择,语句表达不清,长篇大论不知所言等问题。随着信息技术和互联网的高速发展,如何通过计算机来解决学生在写作中遇到的困难,为学生提供写作辅助,扩展其写作思路、提升其写作质量,是很多研究者共同关注的问题。因此,近年来涌现出了各种各样的辅助写作软件。但是,这些辅助写作系统依旧存在着很多不足之处:只支持英文写作、简单的关键词检索匹配、不能进行个性化推荐等,不能有效的解决学生写作过程中素材缺失、灵感缺乏的问题。因此,本文分析了国内外众多专家学者关于写作的研究,从学生写作和教师教学两方面对写作困难进行了归纳。并进一步分析了国内外辅助写作系统的研究现状及其优缺点,提出了中文智能辅助写作系统的构想,试图为学生的写作过程提供高效、智能的帮助以解决他们的写作困难。我们最终设计并实现了中文智能辅助写作系统。在本系统的辅助下,学生在进行写作时,我们可以向其推荐与当前写作词汇具有语义相关性的词汇,还可以向其推荐与当前写作句子具有主题相关性的句子,从而使学生在写作思维和灵感上获得启发,锻炼他们的词汇运用、语言转述等能力。本文的主要研究内容包括以下几方面:第一、对国内外众多专家学者关于写作困难的研究进行分析综合,并从学生写作和教师教学两方面对写作困难进行了归纳。指出学生存在着缺乏写作兴趣、写作内容情感缺失、缺乏写作素材、词汇使用错误,语句表达不清等问题;教师教学存在缺乏写作训练、写作示范性教学过于模式化、缺乏个性化指导和评价等问题。第二、为了尝试解决学生写作困难等问题,分析了国内外智能辅助写作系统的优势与不足。提出了中文智能辅助写作系统的构想,并对系统核心功能模块的相关技术进行了详细介绍。本文所设计系统的核心功能为词汇推荐和句子推荐:在词汇推荐中,我们尝试使用基于词向量表示技术的词间相似度计算来实现词汇推荐;在句子推荐中,我们先对语料库进行清洗和过滤,筛选出质量较高的句子进行主题建模,并进行基于主题的句子相似度计算,实现句子推荐。第三、中文智能辅助写作系统的设计与实现。首先是语料库的收集,并对语料库进行词级和句子级的挖掘与处理。整个系统是以BS模式进行开发的,一共包含三个模块:个性化调查模块、词汇推荐模块、句子推荐模块。系统中的三个模块协同工作、相互配合,为学生的写作过程提供高效、智能的辅助。第四、中文智能辅助写作系统的测试与评价。为了解系统的实用性和有效性,我们从多个方面对中文智能辅助写作系统进行了测试与评价。首先,我们将系统应用到实际写作课堂中,通过学生使用记录来证明学生是乐于主动使用,并接收系统推荐候选项的;然后,对学生进行系统使用后期问卷调查,从系统有用性、易用性、学生使用态度、使用意愿、成长需求等五个维度整体评价本系统的实用性与有效性;最后,通过随机访谈,详细了解学生对本系统的主观性评价。
【图文】:
造成“语义鸿沟”现象。如“阅读”和“写作”本应是具有关联关系的。这两个逡逑主要问题的存在使得“One-Hot邋Presentation”的应用在一定程度上受到了限制。逡逑为了解决这个问题,Him0n[49]在1986年提出了分布式词向量表示方法逡逑(DistributedRepresentation)。其基本思想是:当前词汇的语义是通过上下文的隐逡逑含信息来确定的,即相同语境下出现的词具有相近的语义。通过训练,可以将每逡逑个词映射成一个N维实数向量,通过词向量间夹角余弦值的计算来衡量词汇间的逡逑语义相似度。逡逑2013年Google的Mikolov[5G]等人提出的Word2vec也是基于此思想的。逡逑Word2vec实际上是以CBOW和Skip-gram两种不同思想实现的。CBOW的目标逡逑是根据上下文中隐含的语义信息来预测当前词出现的概率,且上下文中所有词对逡逑当前词出现的概率具有相同的影响权重,因此叫做Continuous邋Bag邋of邋Words模型。逡逑Skip-gram则刚好相反,它是根据当前词的隐含语义信息来预测上下文出现的概率。逡逑这两种方法都以人工神经网络作算法为基础,起初每个词都由一个随机生成的N逡逑维向量表示。经过在大规模语料库上训练后,算法利用CBOW或者Skip-gram的逡逑方法计算得出每个词汇的最优表示向量。训练过程如下图所示:逡逑INPUT邋PROJECTION邋OUTPUT逦INPUT邋PROJECTION邋OUTPUT逡逑
逦1-1逦1逡逑图3.4文档-词频矩阵图逡逑这里我们没有使用预处理,,也没有使用TF-IDF进行处理,在实际应用中使逡逑用预处理后的TF-IDF矩阵值作为输入效果将会更好。我们假定对应的主题数为2,逡逑则通过SVD降维后得到的三矩阵为:逡逑■-0.4201逦0.0748邋'逡逑—0.2995邋-0.2001逡逑-0.1206逦0.2749逡逑-0.1576邋-0.3046逡逑—0,1206逦0.2749逦.邋nQQQ邋n邋nnnm逡逑U邋滛=-0.2626逦0.3794逦k=2邋Z?Efe邋=逡逑-0.4201逦0.0748逦L0.0000邋2.3616J逡逑-0.4201逦0.0748逡逑-0.2626逦0.3794逡逑-0.3151邋-0.6093逡逑l-0.2995邋-0.2001-1逡逑r_n邋4Q4^逦0逡逑^Vk= ̄^邋S邋=逦S逡逑图3.5邋SVD降维结果逡逑从矩阵t/fc我们可以看到词汇和主题之间的相关性。而从K可以看到三个文本逡逑与两个主题的相关性。逡逑2.PLSA概率主题模型逡逑PLSA在LSA的基础上定义了文本概率主题模型,是一种对文本隐含主题进逡逑22逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G623.24;G434
【图文】:
造成“语义鸿沟”现象。如“阅读”和“写作”本应是具有关联关系的。这两个逡逑主要问题的存在使得“One-Hot邋Presentation”的应用在一定程度上受到了限制。逡逑为了解决这个问题,Him0n[49]在1986年提出了分布式词向量表示方法逡逑(DistributedRepresentation)。其基本思想是:当前词汇的语义是通过上下文的隐逡逑含信息来确定的,即相同语境下出现的词具有相近的语义。通过训练,可以将每逡逑个词映射成一个N维实数向量,通过词向量间夹角余弦值的计算来衡量词汇间的逡逑语义相似度。逡逑2013年Google的Mikolov[5G]等人提出的Word2vec也是基于此思想的。逡逑Word2vec实际上是以CBOW和Skip-gram两种不同思想实现的。CBOW的目标逡逑是根据上下文中隐含的语义信息来预测当前词出现的概率,且上下文中所有词对逡逑当前词出现的概率具有相同的影响权重,因此叫做Continuous邋Bag邋of邋Words模型。逡逑Skip-gram则刚好相反,它是根据当前词的隐含语义信息来预测上下文出现的概率。逡逑这两种方法都以人工神经网络作算法为基础,起初每个词都由一个随机生成的N逡逑维向量表示。经过在大规模语料库上训练后,算法利用CBOW或者Skip-gram的逡逑方法计算得出每个词汇的最优表示向量。训练过程如下图所示:逡逑INPUT邋PROJECTION邋OUTPUT逦INPUT邋PROJECTION邋OUTPUT逡逑
逦1-1逦1逡逑图3.4文档-词频矩阵图逡逑这里我们没有使用预处理,,也没有使用TF-IDF进行处理,在实际应用中使逡逑用预处理后的TF-IDF矩阵值作为输入效果将会更好。我们假定对应的主题数为2,逡逑则通过SVD降维后得到的三矩阵为:逡逑■-0.4201逦0.0748邋'逡逑—0.2995邋-0.2001逡逑-0.1206逦0.2749逡逑-0.1576邋-0.3046逡逑—0,1206逦0.2749逦.邋nQQQ邋n邋nnnm逡逑U邋滛=-0.2626逦0.3794逦k=2邋Z?Efe邋=逡逑-0.4201逦0.0748逦L0.0000邋2.3616J逡逑-0.4201逦0.0748逡逑-0.2626逦0.3794逡逑-0.3151邋-0.6093逡逑l-0.2995邋-0.2001-1逡逑r_n邋4Q4^逦0逡逑^Vk= ̄^邋S邋=逦S逡逑图3.5邋SVD降维结果逡逑从矩阵t/fc我们可以看到词汇和主题之间的相关性。而从K可以看到三个文本逡逑与两个主题的相关性。逡逑2.PLSA概率主题模型逡逑PLSA在LSA的基础上定义了文本概率主题模型,是一种对文本隐含主题进逡逑22逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G623.24;G434
【相似文献】
相关期刊论文 前10条
1 郑s
本文编号:2667558
本文链接:https://www.wllwen.com/jiaoyulunwen/xueshengguanli/2667558.html