当前位置:主页 > 医学论文 > 医卫管理论文 >

生物医学缩略语消歧

发布时间:2020-05-07 07:50
【摘要】:随着计算机技术和生物技术的进步,当前生物医学领域文献正在爆炸性增长。文献中蕴含着最新的研究成果和丰富的生物医学知识。从生物医学文献中自动获取生物医学知识已经成为生物信息学研究的重要领域。生物医学缩略语消歧在生物医学和自然语言处理领域有着重要的理论和实践意义,在机器翻译和信息检索领域起着非常重要的作用。生物医学缩略语在文献中出现形式有两种:一种缩略语与其全称同时出现,另一种文献中只有缩略语出现。缩略语的出现形式决定了当前缩略语消歧的方法主要有两种:基于启发式方法,需要构建规则集;另一种是使用统计学和机器学习的方法,从大量的样本中推导出语言使用模型。 由于生物医学文献的复杂性和多样性,生物医学缩略语在文献中的出现形式亦呈现出多样性。生物医学缩略语消歧是一个相当困难的任务。本文根据生物医学缩略语在文献中出现的形式,分别应用基于规则和基于机器学习的方法对生物医学缩略语消歧进行了深入研究。对于需要消歧的文档,本文首先根据缩略语识别法定位到缩略语;其次用基于规则和统计的方法对第一种形式的缩略语进行消歧;然后使用缩略语词典判断是否对此缩略语消歧;若此步没有找到缩略语正确全称,最后进行全局缩略语消歧。本文通过实验分析证明基于向量空间模型的方法最适用于第二种形式的生物医学缩略语消歧。 生物医学缩略语消歧实验目前还没有统一的语料,以往研究都是针对文献中缩略语出现的其一种形式进行消歧,没有形成完善、高效的消歧系统。本文在自己构建语料的基础上进行实验证明:本文所构建的生物医学缩略语消歧系统,实现了所有形式的缩略语消歧,并且取得了较高的性能,达到了目前的较好水平。本文的研究和所取得的成果对今后缩略语消歧研究具有一定的参考价值。
【图文】:

缩略语,网页,全称,生物医学


图 3-3 将缩略语做查询词提交给 Google 后获得的网页摘要图 3-4 Google 返回结果中包含全称摘要的一个实例每组全称候选短语进行过滤。具体方法与生物医学缩略语词范缩略语及其扩展构建词典,最终结果如表 3-3 所示。由显多于生物医学缩略语全称,这是由所用数据库的不同导域的,,资源广;而 PubMed 则是面向生物医学领域的,数献,且资源数量有限。表 3-3 缩略语全称扩展对表EDI Education Development International EDI is a leadprovider of vocational qualifications and online assessmsolutions and an awarding body accredited by the UK regulatauthorities

流程图,缩略语,消歧,全称


图 4-1:local 缩略语消歧流程图优全称抽取识别,缩略语全称扩展识别,得到一批缩略语全称扩最优全称,本文提出了一个综合、有效的方法,见公( , )* (1 )AC C i iiS A F = α apr + αsr, isr为用基于规则的方法求得的第i个全称候选的权得的第i个全称候选的权重。α为可调参数,通过调)i值,通过实验证明α最优值为 0.4。( ,)AC CiS A F为第对所有的候选降序排序,取第一个为最优全称。基于常好,但是对无规则缩略的全称无法识别;基于统计制,但是在无规律缩略的全称识别时效果尤为突出。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:R-5

【参考文献】

相关期刊论文 前1条

1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期



本文编号:2652665

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2652665.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46f77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com