当前位置:主页 > 医学论文 > 消化疾病论文 >

面向消化内科辅助诊疗的生成式对话系统研究

发布时间:2020-08-23 20:47
【摘要】:随着社会的快速发展,群众的压力也越来越大。不规律饮食已成为现代人的共同问题,食物安全性的问题也一直存在,这导致了患有消化系统疾病的人数不断增多。消化系统很多疾病的发病周期长,通常早期对人的影响很小,只会出现一些轻微的不适感,对现在忙于工作的上班族不构成去医院问诊的充分条件。一般在身体刚出现消化系统异常情况时,大多数人会首先选择在互联网上寻找信息帮助。传统搜索引擎在处理疾病的搜索请求时,技术原理通常为关键字匹配,存在诸多限制,例如丢失疾病的关键信息,并且整个过程耗时,甚至可能是无效的查询。在这种背景下,考虑到对话系统作为一种先进的信息检索系统,能够根据用户的输入及时返回相关的有效信息,本文探索了一种适用于消化内科领域的生成式对话系统,研究内容主要包括语料的分词、文本的分类和对话模型三个部分。1.研究一些常用的分词方法,分析各种方法的优缺点,以及对适用于中文的结巴分词工具展开研究,分析其处理消化内科语料分词时出现的问题。本文在结巴分词的基础上,构建消化内科领域的专业词典,使用双向最大匹配分词法进行分词操作,同时增加歧义消除策略。实验结果表明我们的分词策略能有效解决结巴分词在处理消化内科语料分词过程中出现的疾病名称、症状名、药名错分问题,以及降低分词歧义的产生概率。2.研究消化内科领域问答数据缺乏的问题。通过Beautiful Soup爬虫获取初始语料,在进行数据清洗和分词处理之后,对常用的关键词提取算法展开研究,本文在此基础上提出关键词联系类别的词向量构建方法,构建问句的句向量,将句向量作为支持向量机(Support Vector Machine,SVM)的输入特征,通过主动学习策略进行分类模型的训练,实现文本的分类。实验结果表明使用本文提出的句向量进行文本分类的效果比使用word2vec(Word to Vector)向量进行分类的效果要好,得到的分类模型能够获取到较均衡的消化内科五大类数据。3.研究传统的序列到序列模型(Sequence to Sequence,seq2seq),分析该模型在生成消化内科问诊答案时具备的缺陷,并对谷歌的语法分析树生成模型展开研究,在两者的基础上,通过组合多层编码、注意力机制解码、门控循环单元(Gated Recurrent Unit,GRU)和集束算法(Beam Search)形成本文提出的对话模型结构,并结合键值对向量和word2vec向量提出新的模型训练方法。实验结果表明本文提出的对话模型结构在进行消化内科疾病的答复的生成时,能够解决传统生成模型产生的回答与问句无关的问题,生成的语句结构不完整的问题,以及规定输入语句长度一致的问题,同时新的模型训练方法能够一定程度上提高模型的有效性。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R57;TP391.1
【图文】:

上下文相关,模型结构,独热编码,对话模型


将语料进行独热编码形式表示为初始词向量,通过一层神经网络,采取逡逑CBOW训练方式得到word2vec向量[54,55],下面对CBOW进行简单的介绍,其逡逑训练数据的模型结构如图4.5所示。逡逑?入逦神经网络逦输出逡逑W(t-2)-逡逑W(t-l)-逡逑逦邋逦?逦逦?邋W(t)逡逑W(t+1)-逡逑W(t+2)-逡逑图4.5邋CBOW模型结构逡逑CBOW可以理解成通过某个词的上下文相关的词来表示该词,本文采取该逡逑模型的原因在于,对话模型的机制也是根据当前词预测下一个词,既根据上文预逡逑测下文。逡逑4.2.3模型搭建与训练逡逑4.2.3.邋1模型结构逡逑42逡逑

曲线,对话模型


逦考虑逦是逦急性》r>炎,逦

本文编号:2802002

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/xiaohjib/2802002.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3b1ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com