当前位置:主页 > 科技论文 > 基因论文 >

基于机器学习的植物表型基因的文献分类及其应用

发布时间:2024-04-11 04:13
  随着生物信息学的发展,每天都有大量的文献发布到各种期刊上,面对快速增长的生命科学文献,依靠手工标注的方式难以实现高效的管理,将文本挖掘技术应用于生物医学领域能够很好的解决文献分类效率,文献分类技术可以从杂乱无序的信息中提取科研人员感兴趣的内容。本文通过机器学习分类器对文献进行分类,筛选出植物表型和基因相关的文献,提高分类的效率,具体工作如下:(1)完成了数据获取和预处理工作通过爬虫软件收集了 MEDLINE数据库中和植物表型基因相关的文献,对收集到的植物表型基因的文献进行预处理操作,主要包括:文献清洗、文献切分、词干提取和删除停用词。(2)构建了词袋模型、TF-IDF模型和Word2vec模型对文献进行特征处理针对植物表型基因文献中特征处理问题,对预处理后的文献特征赋予不同的权重,将文献的内容转换成向量的形式,主要依据文献中单词出现的频率、逆文档频率和文本相似度等属性,通过实验选取合理的超参数,最终对不同特征提取方法的分类效果进行评价。(3)运用了机器学习分类器对植物表型基因文献进行分类通过对现有文本分类算法优缺点的比较,选取了支持向量机、朴素贝叶斯和随机森林方法对植物表型基因文献进行...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2-3?CBOW和skip-gram模型示意图??Fig.?2-3?Schematic?diagram?of?CBOW?and?skip-gram?models??

图2-3?CBOW和skip-gram模型示意图??Fig.?2-3?Schematic?diagram?of?CBOW?and?skip-gram?models??

于其??他神经网络,运行速度更快,而且不需要手工标记标签来创建训练集。CB0W模型??又叫连续词袋模型是根据目标词上下文的词向量对该词的词向量进行预测,而??Skip-gram贝U相反,Skip-gram又叫跳节模型,逆转CBOW的因果关系,通过目标词??的词向量预测上下文的词向....


图3-1文献分类流程图??Fig.?3-1?Document?classification?flow?chart??本章主要介绍的是文献的预处理和特征选择,下文是详细介绍

图3-1文献分类流程图??Fig.?3-1?Document?classification?flow?chart??本章主要介绍的是文献的预处理和特征选择,下文是详细介绍

文献清洗??文献切分??表型数据集?S?词干提取??5特征选择?S?分类器??去除停用词??文献预处理??图3-1文献分类流程图??Fig.?3-1?Document?classification?flow?chart??本章主要介绍的是文献的预处理和特征选择,下文是详细介绍。?....


图3-2株高类别的植物表型文档???

图3-2株高类别的植物表型文档???

omology?was?observed?between?Bt2?and?L2?in?their?coding?region,?but?homology?was?poor?in?the?3'?noncoding?border.??This?result?demonstrates?....


图3-4?spike词向量??Fig.?3-4?spike?word?vector??

图3-4?spike词向量??Fig.?3-4?spike?word?vector??

容合并一起过程中,要让文本输出格式符合utf-8编码要求。??植物表型基因语料库共收集到超过100000个单词,嵌入100维的词向量,产生??了庞大的权重矩阵,在神经网络中进行梯度下降速率较慢,由于需要训练数据来调整??权重避免过拟合,为了优化训练过程,避免权重矩阵过大,本实验使....



本文编号:3950859

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3950859.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d1f6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com