医疗问答系统的中文分词算法研究

发布时间:2021-09-28 23:34
  医疗问答系统一直是智能医疗发展的重要内容,也是自然语言处理领域的研究热点。为了用准确、简洁的文本回答用户提出的医疗问题,满足用户尽快得到正确的答案的需求,医疗问答系统需要有较高的执行效率。而中文分词的准确率直接影响着问答系统的执行效率,提高中文分词的准确率可以从根本上提高医疗问答系统的答题准确率并缩短答题时间。本文研究了LSTM-CRF组合网络提高中文分词的准确率和分词速率,实现自动分词,不依赖人工标注特征,研究的内容包括:医疗文本数据的采集存储、设计融合的神经网络分词结构以及测试基于改进后中文分词算法对医疗问答系统执行率的影响。主要研究成果如下:采集并构建了医疗文本数据集,通过量化存储搜集的疾病信息和医疗问答信息,构建了29610条疾病语料信息和23632对问答信息,其中包含39个科室的9856个疾病。设计了基于LSTM和CRF模型的融合网络中文分词算法。首先对两个LSTM神经网络进行反向连接,然后调节双层网络的权重矩阵,对前后序列信息设置不同的选择权重,通过上下文关系特征向量的线性变换与CRF标注推理层融合。同时,对BI-LSTM-CRF组合网络词位标注增加到6词位标注集。基于医疗... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:86 页

【学位级别】:硕士

【部分图文】:

医疗问答系统的中文分词算法研究


自动分词框架图

框架图,键值,分词系统,自动分词


图 1-1 自动分词框架图1991 年,北京航空航天大学完成了 的设计之后,进一步对该系统进行升级。研制了 系统[4],如图 1-2 所示。 系统融合字节转码和分析框架 的优点,进行中文的分词处理。由于 系统和 系统内部词典存储的方式不同, 系统根据首字索引建立字典一样的键值对,同时,对不同键值对没有长度的要求。内部主要的存储结构有效的减少了分词系统运行的时间复杂度,极大的提高了 系统分词的效率。分词速度是每分钟12000个字,分词误差也比 系统更小,并且可移植性和通用性的优点让 系统在我国中文分词技术发展的初期发挥了极大的优势和研究价值。

机器学习,搜索算法,准确率,应用统计方法


华 中 科 技 大 学 硕 士 学 位 论 文字‘ ’和‘ ’就越可能代表为一个词。当训练的文本数据集包由计算的概率结果,可以得到文本的组成结构,得到准确率较高的eba 分词[9]就是应用统计方法的一个高效分词方法,但是也存在很大要得到比较高的分词准确率,需要丰富的语料数据集支撑。


本文编号:3412749

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3412749.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e3b54***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com