当前位置:主页 > 教育论文 > 教师素养论文 >

自适应性多教师多学生知识蒸馏学习

发布时间:2021-08-10 06:31
  模拟人类教学的真实场景,知识蒸馏方法提出让模型不仅接收来自真实标签的监督,还接收来自其他模型的额外信息的监督。真实标签的引导相当于人类教学中学生做题并从正确答案中获取经验,其他模型的信息引导相当于教师将自己学到的知识传递给学生。该通用的教师-学生学习范式主要有两个应用方向,一个是利用参数量大且性能强的教师模型帮助简洁且性能差的学生模型提高性能,达到模型压缩的效果;另一个应用方向是借助教师模型向学生模型传递它所接收的特征以外的额外信息。然而,大多数现有的蒸馏学习相关研究只涉及到一个教师模型,忽略了学生模型可以同时受多个教师模型监督,或者只是简单地将多个教师模型看做相同重要程度的,无法根据教师模型之间的内在差异得到更有效的知识。为了解决这一问题,本文提出了一个简洁有效的自适应性多教师模型蒸馏学习框架,该框架令学生模型自行有选择性地学习不同教师模型对特定数据样本的重要性,并根据学到的不同重要性融合他们的知识,这更加有利于学生模型的学习。在此基础上,本文引入了多个学生模型之间相互学习的机制,进一步提出了自适应性多教师多学生知识蒸馏学习框架。本文将提出的框架应用于冷启动文档级情感分类和图像分类模... 

【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

自适应性多教师多学生知识蒸馏学习


图2.1:全连接祌经网络示意图??

网络单元,输出门,记忆细胞


入门、遗忘门、输出门组成,3个门控元件控制记忆细胞存放内容。输入门控制信??息流入记忆细胞的程度,遗忘门控制记忆状态被丢弃的程度,输出门控制记忆状??态输出的程度D?LSTM单.元结构如图2.4所示。LSTM层第f步的隐状态比计算如??下:??f*?=?a-5(W/xf?+?U/hf_1?+?b/),?(2.4)??i*?=?+?Ujht_!?+?bj),,,?(2.5)??°t?=?+?U0ht-i?+?b〇),?(2.6)??Ct?=?〇〇(Wcxt?+?Uch^x?+?bc),?(2.7)??11??

单元结构,记忆细胞


W说??xt??图2.3:循环祌经网络单元结构'??艰,,第#_步的隐:藏状态h;:由上一的籐藏状态ht_i和这^步的输入々義同决定.s:??每一步的隐藏状态包含此前序列的信息,起到记忆效每《*时刻的隐藏状态hf计算??如下:??hf?=?cr(y^mhxt?+?W/j/jh^i?+?b),?(2.3)??其中Wi和Wm为权值矩阵,a为激活函数,b为偏覺商蠹逾??2.1.4长短时记忆网络??.长短时记忆(Long?short-term?memory.,?LSTM)网絡[41]通常指像有'LSTM阜??元的循坏神经网雜.(Recurrent?Neural?Network,RNN)P?LSTM单元.由记忆細胞、输??入门、遗忘门、输出门组成,3个门控元件控制记忆细胞存放内容。输入门控制信??息流入记忆细胞的程度


本文编号:3333658

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/jsxd/3333658.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eccb5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com