基于社交媒体的药物不良反应检测
发布时间:2021-08-15 01:46
随着互联网的飞速发展,人们都在用社交媒体来作为知识分享、传播以及情感交流的主要平台,因此在社交媒体的药物不良反应检测将会是关注当前人们用药情况的重要渠道。与此同时,传统的机器学习在构建特征时较为困难并且有着较弱的迁移性,而卷积神经网络,即CNN,在进行空间信息建模时又存在效率低和空间不敏感的缺点。针对以上问题,文章基于通用文本处理特征和生物医学的专属特征等,提出一种基于胶囊网络和长短时记忆神经网络结合的方法来检测在社交媒体中的药物不良反应事件,使用的语料集是2017年The Social Media Mining for Health (SMM4H)共享任务语料集中的数据,对语料进行预处理后对药物不良反应进行标记,并且构造了分布式词向量特征、词性标记、字符级向量特征以及每句话中药物名和情感词作为模型的特征输入,形成对比实验。解决了在分类过程中特征之间空间关系缺失和构建模型效率低的问题,该实验结果与此前先进的结果相比F1值升高了4.2%,证明该方法在检测社交媒体的药物不良反应事件中是有效的并且具有良好的性能。
【文章来源】:山西大学学报(自然科学版). 2020,43(01)北大核心
【文章页数】:8 页
【部分图文】:
系统模块图
模型图
目前,在自然语言处理领域词向量的表示方法有两种,分别是传统的独热表示方法(one-hot representation)和分布式表示方法(Distributed Representation,Embedding)。其中独热表示词向量方法由高维向量组成,但是存在的问题是忽略了单词之间是有语义关系和相似度的。分布式表示方法则是通过训练文本将语言中的每一个单词映射到固定长度的向量,然后将这些词向量形成一个词向量空间,通过词之间在该空间上的距离判断其相似度,如图3所示。本文利用Word2Vec[13]工具通过对wiki百科进行词向量的训练,Word2Vec工具具有两种工作模式,分别是Skip-gram模型和连续的词袋模型(CBOW),文中利用CBOW模型进行训练,随机初始化,然后将单词或者字词映射到同一个坐标系下,利用神经网络模型进行特征学习,得到连续的数值向量,因此该向量蕴含了丰富的上下文语义信息,对文本分类任务起着重要作用,其在一定程度上决定分类任务的上限。具体公式如下所示。本次实验的窗口C取为5,词汇表的大小为V,则输入层可表示为{x1,x2,x3,x4,x5},可以先计算出隐藏层的输出见式(2)。
本文编号:3343595
【文章来源】:山西大学学报(自然科学版). 2020,43(01)北大核心
【文章页数】:8 页
【部分图文】:
系统模块图
模型图
目前,在自然语言处理领域词向量的表示方法有两种,分别是传统的独热表示方法(one-hot representation)和分布式表示方法(Distributed Representation,Embedding)。其中独热表示词向量方法由高维向量组成,但是存在的问题是忽略了单词之间是有语义关系和相似度的。分布式表示方法则是通过训练文本将语言中的每一个单词映射到固定长度的向量,然后将这些词向量形成一个词向量空间,通过词之间在该空间上的距离判断其相似度,如图3所示。本文利用Word2Vec[13]工具通过对wiki百科进行词向量的训练,Word2Vec工具具有两种工作模式,分别是Skip-gram模型和连续的词袋模型(CBOW),文中利用CBOW模型进行训练,随机初始化,然后将单词或者字词映射到同一个坐标系下,利用神经网络模型进行特征学习,得到连续的数值向量,因此该向量蕴含了丰富的上下文语义信息,对文本分类任务起着重要作用,其在一定程度上决定分类任务的上限。具体公式如下所示。本次实验的窗口C取为5,词汇表的大小为V,则输入层可表示为{x1,x2,x3,x4,x5},可以先计算出隐藏层的输出见式(2)。
本文编号:3343595
本文链接:https://www.wllwen.com/yixuelunwen/yiyaoxuelunwen/3343595.html
最近更新
教材专著