当前位置:主页 > 医学论文 > 西医药论文 >

基于多标签CRF的疾病名称抽取

发布时间:2018-08-30 12:48
【摘要】:生物医疗文本中的命名实体识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而其中一个基础工作是疾病名称的识别。医疗文本中存在大量的复合疾病名称,难以分离抽取出其中的实体。针对这一问题,提出一种基于多标签的条件随机场算法,首先对数据标注多层标签,每层标签针对复合疾病名称中的不同疾病,然后用整合后的最终标签去训练模型,最后再对模型预测的标签进行分离。此方法能够识别传统条件随机场算法无法识别的复合疾病名称,实验结果验证了所提算法的有效性。
[Abstract]:The identification of named entities in biomedical texts is of great significance for constructing and mining large clinical databases to serve clinical decisions, and one of the basic tasks is the recognition of disease names. There are a large number of complex disease names in medical texts, so it is difficult to separate and extract the entities. In order to solve this problem, a conditional random field algorithm based on multi-label is proposed. Firstly, the data is labeled with multi-layer label, each layer label is aimed at different diseases in the name of complex disease, and then the model is trained with the integrated final label. Finally, the label of model prediction is separated. This method can recognize the complex disease names which can not be recognized by the traditional conditional random field algorithm. The experimental results show that the proposed algorithm is effective.
【作者单位】: 武汉大学计算机学院;
【分类号】:TP391

【相似文献】

相关重要报纸文章 前6条

1 乔通 高岚;带有疾病名称的广告禁止在新闻媒体发布[N];临汾日报;2006年

2 记者 李学梅;疾病名称不得上医疗广告[N];北京日报;2006年

3 古万曦 王克立;卫生信息及交流的标准化[N];中国中医药报;2004年

4 本报记者  贾君;医疗广告不得宣称诊疗方法[N];中国消费者报;2006年

5 马安宁;试用“按病种床日”收费[N];健康报;2007年

6 罗竹云 陈瑞祥;福州查处网络医疗广告案[N];中国工商报;2010年



本文编号:2213113

资料下载
论文发表

本文链接:https://www.wllwen.com/xiyixuelunwen/2213113.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8916***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com