当前位置:主页 > 医学论文 > 生物医学论文 >

基于自然语言处理技术的循证医学信息提取研究

发布时间:2021-12-24 20:52
  背景:流行病学是研究人类致病因素的科学。生物医学研究文献中有很多流行病学研究成果,但是这些信息并不能直接使用计算机进行分析。传统上,循证医学研究依靠人工阅读的方式从流行病学研究文献中提取信息,但是这种方式费时费力,难以应对海量的数据。为了设计出能够进行自动信息提取的系统,以用于建立循证医学研究知识库,本课题开发了基于机器学习和基于规则的自动信息提取系统。方法:本文研究出两种自动信息提取系统,从生物医学文献中提取致病因素和疾病信息。在研究初期,课题开发出DEEL系统(用于从生物医学文献中提取致病因素)。该系统由一个自然语言处理引擎和一个基于规则的文本分类器构成,用于从流行病学文献中自动提取致病因素相关的信息。之后的研究中,本课题又开发出另一个系统,它也由两部分组成,第一部分使用一个自然语言引擎来标识出所有的名词短语,并收集该名词短语的语义等信息。第二部分是一个基于机器学习的文本分类器,利用从自然语言处理引擎中获取的信息,它能够标识出三类术语(名词短语):致病因素、疾病以及不相关的短语。在该系统中,本课题应用了四种算法:朴素贝叶斯算法、决策树算法、支持向量机算法和逻辑回归算法。并且比较了这... 

【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:81 页

【学位级别】:博士

【部分图文】:

基于自然语言处理技术的循证医学信息提取研究


致病!川索的分类本研究课题,!,,流行病学专家共审阅厂1600个来「IJ几关!l{I流行病’学杂志的文

信息图,语义图,数据图,整体框架


图5.1DEEL系统的整体框架图KMclNLP引擎[65·“伙卜要用于从数据中提取语义等相关信息。它,lJ’以帮助研究者从生物医学领域的文献中找到感兴趣的知识,乡门1确定这止匕信息在UnitedMediealLanguagesystem(uMLs)[59,67]L},的具体概念不rl语义类)(,〕。J.仁J几uMLs提供的适川J几自然语一言处理的一T一具,在本课题,},,将应川KMC!去处理所有的在八JEI几发表的论文。KMel,:。J几规则表达式应川I,art。fspeeeh(l,05)tag168]愈7.法,这样就!:J’以获得AJE文本‘},自勺所丫J‘名L,IJ矢以语。从J几规则的分类器:本拟{究利川训练数据集,设i!出从J‘规则的分类器,‘已将川J几决定名L司i「lJ夕11_足台足致71与I大I索。JI七J从KMCINll),JI擎斩汀{l}义件,l,了夫得的信息,这个分类器将到叮}发式的规则分派少lJ各个名i,,Ji,1』匆!。l冬15.1还给{!{个例句,L匕夕11”八55、)Ciatioll()t‘b()dy,1::,551;、。Ic、:‘,101Wcigl“tel:allgcwitllall一eause,n、)rtalityi:1tl:cclderly.”这个f.JJ几输入j·IJKM(’11’I然i岛.’i处J,11弓l擎后,经过KMcl处J,}l)!亏就示呀j、IJ11_个名L,IJ)、:丈i{}分别足:门):,55、)ei:,ti、);1二仪)b“,“ly

原理图,机器学习,概念,背景知识


背背景知识识识 识识识识识识识识识识识图6.1机器学习的简要原理图如图6.1所示,学习算法能够根据预先所提供的-一组概念样木和背景知识获得1个对特定概念的模式的描述,以此来预测或判断某个概念是否为这个概念类别。概念样本为门例和反例,如在学习111n乳动物时,猫就是一个币例(因为‘已是[l[Il乳动物),蚁蛤就是个反例(囚为它不是一个喃乳动物)。背娥知识包含很多描述概念和样本的语,’泊勺情况,‘已日J’以足个概念的属性的可能取值及其层次、车南助句法规贝lJ、i’l’{语等。学习劝.法鼓终就足根州样本类型,背l共知识以及设计者的经验等构


本文编号:3551174

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/3551174.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc3ff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com