基于深度学习的piRNA识别算法研究与实现
发布时间:2020-12-14 12:58
非编码RNA(ncRNA)是一种从DNA中转录但不编码蛋白质的功能性RNA,其研究是当前生物医学研究中最令人兴奋的领域之一。根据转录组学和生物信息学的研究,有成千上万的ncRNA根据其功能和长度被分为不同的类别,包括tRNA、rRNA、miRNA、siRNA、piRNA和lncRNA等等。piRNA是不同物种中广泛存在且数量庞大的一类小非编码RNA。相比于miRNA和lncRNA的数据量有限且已经进行广泛研究,对piRNA的研究目前仍处在基础阶段,主要集中在转录和转录后水平,而很少有在翻译后水平piRNA的功能研究。准确从非编码RNA序列中识别出piRNA是开展其后续功能研究的重要保证。当前研究大多基于人工或者工具提取出上千个特征,然后结合一些机器学习方法进行分类识别,由于特征过多导致方法重复性不强,并且只能针对有相应特征的一小类piRNA使用,整体piRNA识别准确率或可靠性有待提高。因此,本文基于卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)的组合设计了一种深度学习网络模型,命名为DeepiRNA模型。该模型有效减少了人工对特征提取的干预,提高了识别piRNA的准确率和...
【文章来源】:山东农业大学山东省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
piRNA的形成示意图(王海龙等,2016)
基于深度学习的piRNA序列识别算法研究与实现102.3数据来源2.3.1piRNA数据库piRBase数据库(WangJetal.,2019),是郑州大学阚云超教授团队搜集整理并构建的针对piRNA数据的数据库,涉及21个物种,总piRNA序列数量达到1.7亿条,并且物种的基因组也都是更新到2018年的最新版本,其注释包括疾病,转座子,甲基化等多项参考数据。本研究选择piRBase数据库,因为它无论在序列的数据量、物种数据量还是对piRNA的注释和查阅方面,都处在同类数据库中领先地位(路一平等,2019)。piRBase数据库网站链接:http://www.regulatoryrna.org/database/piRNA/。论文分析piRBase数据库中的数据,发现在其物种上和数量上提供了最丰富的piRNA数据,但是根据国际上的研究来说,尽管有些物种有了最新的piRNA测序结果,但是对于某些常见的有重大经济价值的物种研究还是缺乏。从全世界的科研来看piRNA的研究还是主要围绕着小鼠,其次是果蝇来研究,但是值得注意的是,2014-2018年数据的更新来看,对人的研究却是增加的最多,新增了14个数据集共8405438条序列,这足以说明piRNA序列对人类的影响随着研究的深入将会有更有价值的发现(路一平等,2019)。图3piRNA表达异常导致的癌症Fig.3CancercausedbyabnormalexpressionofpiRNA如图3所示,由piRBase数据库中提供截止到2018年的研究中,由生物实验或临床验证的piRNA序列异常导致的癌症多达八种,其中,与膀胱癌相关的piRNA序列数
山东农业大学硕士专业学位论文13图5卷积神经网络Fig.5convolutionalneuralnetwork在图像识别领域取得了成功后,CNN也被应用于其它模式识别任务。国显达等将卷积神经网络引入文本分类任务中,与人工设计的特征相比,使用CNN提取特征更快捷,同时预测得到的结果更准确(国显达等,2020);曾凡锋等(2020)将卷积神经网络用于中文新闻分类,结果多个指标优于传统机器学习。2.4.2双向长短期记忆网络双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM),由前向LSTM与反向LSTM组合而成,其在自然语言处理任务中常被用来建模上下文信息。LSTM的全称是LongShort-TermMemory,它是循环网络(RecurrentNeuralNetwork,RNN)的一种,循环网络又称递归网络,由于其设计的特点,非常适用于对时序数据的建模,常被用来文字建模、语音识别等。图6循环神经网络RNNFig.6RecurrentNeuralNetwork
【参考文献】:
期刊论文
[1]基于卷积神经网络的语句级新闻分类算法[J]. 曾凡锋,李玉珂,肖珂. 计算机工程与设计. 2020(04)
[2]融合主题信息的卷积神经网络文本分类方法研究[J]. 杨锐,陈伟,何涛,张敏,李蕊伶,岳芳. 现代情报. 2020(04)
[3]整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别[J]. 李纲,潘荣清,毛进,操玉杰. 现代情报. 2020(04)
[4]基于CNN-BiLSTM的消费者网络评论情感分析[J]. 国显达,那日萨,崔少泽. 系统工程理论与实践. 2020(03)
[5]改进biLSTM网络的短文本分类方法[J]. 李文慧,张英俊,潘理虎. 计算机工程与设计. 2020(03)
[6]基于CNN的多标签文本分类与研究[J]. 万磊,张立霞,时宏伟. 现代计算机. 2020(08)
[7]MIWI/piRNA激活小鼠精子细胞mRNA翻译的新功能机制研究[J]. 戴鹏,刘默芳. 中国细胞生物学学报. 2020(02)
[8]基于Attention-BiLSTM的情感分类模型[J]. 黄奇景,付伟. 电子技术与软件工程. 2020(03)
[9]生物信息学在农业领域的应用及展望[J]. 徐佳莹,宁璐. 安徽农学通报. 2019(22)
[10]基于CNN和BiLSTM的文本情感分类[J]. 武姗姗. 信息记录材料. 2019(11)
博士论文
[1]白背飞虱非编码RNA的鉴定和特征分析[D]. 常朝霞.中国科学技术大学 2019
[2]piRNA鉴定、数据仿真及与疾病的关联分析[D]. 刘雅君.西安电子科技大学 2017
[3]面向不平衡数据的特征选择与半监督分类算法研究[D]. 杜利敏.西南交通大学 2017
[4]非编码RNA的二级结构预测与结构化RNA的检测[D]. 徐成振.哈尔滨工程大学 2017
[5]基于机器学习算法的非编码RNA识别[D]. 骈聪.南京农业大学 2016
[6]Docker生物云计算平台分析松材线虫高通量测序数据的应用研究[D]. 程功.东北林业大学 2015
硕士论文
[1]地方消防政务平台的设计与实现[D]. 胡涛.华东交通大学 2020
[2]piRNA数据库piRBase的版本升级及数据完善[D]. 路一平.郑州大学 2019
[3]PiRNAs作为诊断NOA患者睾丸内残存精子的生物标志物的探索性研究[D]. 曹聪聪.华中科技大学 2019
[4]深度学习在植物lncRNA识别中的研究与应用[D]. 常征.大连理工大学 2019
[5]利用高通量测序技术和生物信息学分析人和动物病毒宏基因组与全基因组[D]. 王媛媛.安徽医科大学 2019
[6]长非编码RNA二级结构预测方法的研究与实现[D]. 戴丹.扬州大学 2018
[7]家蚕大脑中piRNA的鉴定及功能探索[D]. 刘晓.南阳师范学院 2018
[8]基于遗传算法的加权集成学习及其对piRNA的预测[D]. 罗龙强.武汉大学 2017
[9]基于转座子互作信息的piRNA预测算法及二化螟piRNA分析[D]. 王凯.南京农业大学 2014
本文编号:2916447
【文章来源】:山东农业大学山东省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
piRNA的形成示意图(王海龙等,2016)
基于深度学习的piRNA序列识别算法研究与实现102.3数据来源2.3.1piRNA数据库piRBase数据库(WangJetal.,2019),是郑州大学阚云超教授团队搜集整理并构建的针对piRNA数据的数据库,涉及21个物种,总piRNA序列数量达到1.7亿条,并且物种的基因组也都是更新到2018年的最新版本,其注释包括疾病,转座子,甲基化等多项参考数据。本研究选择piRBase数据库,因为它无论在序列的数据量、物种数据量还是对piRNA的注释和查阅方面,都处在同类数据库中领先地位(路一平等,2019)。piRBase数据库网站链接:http://www.regulatoryrna.org/database/piRNA/。论文分析piRBase数据库中的数据,发现在其物种上和数量上提供了最丰富的piRNA数据,但是根据国际上的研究来说,尽管有些物种有了最新的piRNA测序结果,但是对于某些常见的有重大经济价值的物种研究还是缺乏。从全世界的科研来看piRNA的研究还是主要围绕着小鼠,其次是果蝇来研究,但是值得注意的是,2014-2018年数据的更新来看,对人的研究却是增加的最多,新增了14个数据集共8405438条序列,这足以说明piRNA序列对人类的影响随着研究的深入将会有更有价值的发现(路一平等,2019)。图3piRNA表达异常导致的癌症Fig.3CancercausedbyabnormalexpressionofpiRNA如图3所示,由piRBase数据库中提供截止到2018年的研究中,由生物实验或临床验证的piRNA序列异常导致的癌症多达八种,其中,与膀胱癌相关的piRNA序列数
山东农业大学硕士专业学位论文13图5卷积神经网络Fig.5convolutionalneuralnetwork在图像识别领域取得了成功后,CNN也被应用于其它模式识别任务。国显达等将卷积神经网络引入文本分类任务中,与人工设计的特征相比,使用CNN提取特征更快捷,同时预测得到的结果更准确(国显达等,2020);曾凡锋等(2020)将卷积神经网络用于中文新闻分类,结果多个指标优于传统机器学习。2.4.2双向长短期记忆网络双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM),由前向LSTM与反向LSTM组合而成,其在自然语言处理任务中常被用来建模上下文信息。LSTM的全称是LongShort-TermMemory,它是循环网络(RecurrentNeuralNetwork,RNN)的一种,循环网络又称递归网络,由于其设计的特点,非常适用于对时序数据的建模,常被用来文字建模、语音识别等。图6循环神经网络RNNFig.6RecurrentNeuralNetwork
【参考文献】:
期刊论文
[1]基于卷积神经网络的语句级新闻分类算法[J]. 曾凡锋,李玉珂,肖珂. 计算机工程与设计. 2020(04)
[2]融合主题信息的卷积神经网络文本分类方法研究[J]. 杨锐,陈伟,何涛,张敏,李蕊伶,岳芳. 现代情报. 2020(04)
[3]整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别[J]. 李纲,潘荣清,毛进,操玉杰. 现代情报. 2020(04)
[4]基于CNN-BiLSTM的消费者网络评论情感分析[J]. 国显达,那日萨,崔少泽. 系统工程理论与实践. 2020(03)
[5]改进biLSTM网络的短文本分类方法[J]. 李文慧,张英俊,潘理虎. 计算机工程与设计. 2020(03)
[6]基于CNN的多标签文本分类与研究[J]. 万磊,张立霞,时宏伟. 现代计算机. 2020(08)
[7]MIWI/piRNA激活小鼠精子细胞mRNA翻译的新功能机制研究[J]. 戴鹏,刘默芳. 中国细胞生物学学报. 2020(02)
[8]基于Attention-BiLSTM的情感分类模型[J]. 黄奇景,付伟. 电子技术与软件工程. 2020(03)
[9]生物信息学在农业领域的应用及展望[J]. 徐佳莹,宁璐. 安徽农学通报. 2019(22)
[10]基于CNN和BiLSTM的文本情感分类[J]. 武姗姗. 信息记录材料. 2019(11)
博士论文
[1]白背飞虱非编码RNA的鉴定和特征分析[D]. 常朝霞.中国科学技术大学 2019
[2]piRNA鉴定、数据仿真及与疾病的关联分析[D]. 刘雅君.西安电子科技大学 2017
[3]面向不平衡数据的特征选择与半监督分类算法研究[D]. 杜利敏.西南交通大学 2017
[4]非编码RNA的二级结构预测与结构化RNA的检测[D]. 徐成振.哈尔滨工程大学 2017
[5]基于机器学习算法的非编码RNA识别[D]. 骈聪.南京农业大学 2016
[6]Docker生物云计算平台分析松材线虫高通量测序数据的应用研究[D]. 程功.东北林业大学 2015
硕士论文
[1]地方消防政务平台的设计与实现[D]. 胡涛.华东交通大学 2020
[2]piRNA数据库piRBase的版本升级及数据完善[D]. 路一平.郑州大学 2019
[3]PiRNAs作为诊断NOA患者睾丸内残存精子的生物标志物的探索性研究[D]. 曹聪聪.华中科技大学 2019
[4]深度学习在植物lncRNA识别中的研究与应用[D]. 常征.大连理工大学 2019
[5]利用高通量测序技术和生物信息学分析人和动物病毒宏基因组与全基因组[D]. 王媛媛.安徽医科大学 2019
[6]长非编码RNA二级结构预测方法的研究与实现[D]. 戴丹.扬州大学 2018
[7]家蚕大脑中piRNA的鉴定及功能探索[D]. 刘晓.南阳师范学院 2018
[8]基于遗传算法的加权集成学习及其对piRNA的预测[D]. 罗龙强.武汉大学 2017
[9]基于转座子互作信息的piRNA预测算法及二化螟piRNA分析[D]. 王凯.南京农业大学 2014
本文编号:2916447
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2916447.html