健康领域中文自动问答的问题解析研究——以肺癌为例
发布时间:2024-05-11 16:37
【目的】本研究针对中文消费者健康问题自动问答系统的问题解析部分,以肺癌健康领域为例,构建高质量的问题解析模型,实现对肺癌领域消费者健康问题的自动解析(包括问题类型、问题实体识别以及实体间关系抽取),为开发健康领域自动问答系统打下基础,本研究旨在(1)形成肺癌领域消费者健康问题的关键信息标注体系;(2)利用人工标注技术生成标注语料库;(3)实现基于深度学习方法的肺癌领域消费者健康问题自动解析。【方法】基于从在线医疗问答平台爬取的10000条真实的肺癌领域消费者健康问题,构建基于BiLSTM模型的问题解析模型。运用统计与对比方法构建中文肺癌领域消费者健康问题的关键信息标注体系;利用人工标注技术标注语料;运用BiLSTM-CRF模型识别问题的提问意向及关键语义成分;使用Attention-Based BiLSTM模型实现实体之间(问题类型与实体间)的关系抽取;将上述解析结果使用通用数据交换格式JSON储存。【结果】根据本研究构建的关键信息标注体系(含20种问题实体、22种问题类型)通过3轮标注与专家校对,对10000条真实肺癌领域消费者健康问题进行人工标注,形成了包含38505个问题实体与1...
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.1.2.1 理论价值
1.1.2.2 实践价值
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.1.1 基于语言学方法的问题解析
1.2.1.2 基于统计学方法的问题解析
1.2.1.3 基于语义学方法的问题解析
1.2.1.4 基于混合方法的问题解析
1.2.2 国内研究现状
1.2.2.1 分词与词性标注
1.2.2.2 句法分析
1.2.2.3 语义分析
1.2.2.4 问题分类
1.2.2.5 关键词抽取
1.2.2.6 文献总结
1.3 研究目标和内容
1.4 技术路线图
1.5 论文结构安排
2 相关概念介绍
2.1 自动问答系统
2.1.1 自动问答系统分类
2.1.2 自动问答系统发展
2.1.3 医疗领域自动问答系统
2.2 问题解析
3 研究数据
3.1 数据来源
3.2 数据筛选
3.3 数据标注体系
3.4 数据标注
3.4.1 标注流程
3.4.2 标注结果一致性检验
3.5 数据标注结果统计性描述
4 研究方法
4.1 词嵌入
4.2 实体识别
4.3 依存句法分析
4.4 实体关系抽取
5 基于BILSTM的肺癌领域消费者健康问题解析模型
5.1 技术路线
5.2 文本预处理
5.3 字向量映射
5.4 模型训练
5.4.1 基于BiLSTM-CRF模型的命名实体识别
5.4.2 依存句法分析
5.4.3 基于Attention-BiLSTM模型的实体关系抽取
5.5 模型评估
6 实验结果分析
6.1 问题实体识别
6.2 问题类型识别
6.3 关系抽取
6.4 问题理解结果
7 讨论与局限性
7.1 讨论
7.1.1 肺癌领域消费者健康问题关键信息标注
7.1.2 肺癌领域消费者健康问题理解模型
7.1.3 向其它健康领域的泛化
7.2 局限性
8 结论与展望
8.1 结论
8.2 展望
致谢
参考文献
自动问答系统的问题解析关键技术研究综述
参考文献
附件1 攻读学位期间发表论文目录
本文编号:3970126
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.1.2.1 理论价值
1.1.2.2 实践价值
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.1.1 基于语言学方法的问题解析
1.2.1.2 基于统计学方法的问题解析
1.2.1.3 基于语义学方法的问题解析
1.2.1.4 基于混合方法的问题解析
1.2.2 国内研究现状
1.2.2.1 分词与词性标注
1.2.2.2 句法分析
1.2.2.3 语义分析
1.2.2.4 问题分类
1.2.2.5 关键词抽取
1.2.2.6 文献总结
1.3 研究目标和内容
1.4 技术路线图
1.5 论文结构安排
2 相关概念介绍
2.1 自动问答系统
2.1.1 自动问答系统分类
2.1.2 自动问答系统发展
2.1.3 医疗领域自动问答系统
2.2 问题解析
3 研究数据
3.1 数据来源
3.2 数据筛选
3.3 数据标注体系
3.4 数据标注
3.4.1 标注流程
3.4.2 标注结果一致性检验
3.5 数据标注结果统计性描述
4 研究方法
4.1 词嵌入
4.2 实体识别
4.3 依存句法分析
4.4 实体关系抽取
5 基于BILSTM的肺癌领域消费者健康问题解析模型
5.1 技术路线
5.2 文本预处理
5.3 字向量映射
5.4 模型训练
5.4.1 基于BiLSTM-CRF模型的命名实体识别
5.4.2 依存句法分析
5.4.3 基于Attention-BiLSTM模型的实体关系抽取
5.5 模型评估
6 实验结果分析
6.1 问题实体识别
6.2 问题类型识别
6.3 关系抽取
6.4 问题理解结果
7 讨论与局限性
7.1 讨论
7.1.1 肺癌领域消费者健康问题关键信息标注
7.1.2 肺癌领域消费者健康问题理解模型
7.1.3 向其它健康领域的泛化
7.2 局限性
8 结论与展望
8.1 结论
8.2 展望
致谢
参考文献
自动问答系统的问题解析关键技术研究综述
参考文献
附件1 攻读学位期间发表论文目录
本文编号:3970126
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3970126.html
最近更新
教材专著