基于自然语言处理技术的循证医学信息提取研究
发布时间:2021-12-24 20:52
背景:流行病学是研究人类致病因素的科学。生物医学研究文献中有很多流行病学研究成果,但是这些信息并不能直接使用计算机进行分析。传统上,循证医学研究依靠人工阅读的方式从流行病学研究文献中提取信息,但是这种方式费时费力,难以应对海量的数据。为了设计出能够进行自动信息提取的系统,以用于建立循证医学研究知识库,本课题开发了基于机器学习和基于规则的自动信息提取系统。方法:本文研究出两种自动信息提取系统,从生物医学文献中提取致病因素和疾病信息。在研究初期,课题开发出DEEL系统(用于从生物医学文献中提取致病因素)。该系统由一个自然语言处理引擎和一个基于规则的文本分类器构成,用于从流行病学文献中自动提取致病因素相关的信息。之后的研究中,本课题又开发出另一个系统,它也由两部分组成,第一部分使用一个自然语言引擎来标识出所有的名词短语,并收集该名词短语的语义等信息。第二部分是一个基于机器学习的文本分类器,利用从自然语言处理引擎中获取的信息,它能够标识出三类术语(名词短语):致病因素、疾病以及不相关的短语。在该系统中,本课题应用了四种算法:朴素贝叶斯算法、决策树算法、支持向量机算法和逻辑回归算法。并且比较了这...
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:博士
【部分图文】:
致病!川索的分类本研究课题,!,,流行病学专家共审阅厂1600个来「IJ几关!l{I流行病’学杂志的文
图5.1DEEL系统的整体框架图KMclNLP引擎[65·“伙卜要用于从数据中提取语义等相关信息。它,lJ’以帮助研究者从生物医学领域的文献中找到感兴趣的知识,乡门1确定这止匕信息在UnitedMediealLanguagesystem(uMLs)[59,67]L},的具体概念不rl语义类)(,〕。J.仁J几uMLs提供的适川J几自然语一言处理的一T一具,在本课题,},,将应川KMC!去处理所有的在八JEI几发表的论文。KMel,:。J几规则表达式应川I,art。fspeeeh(l,05)tag168]愈7.法,这样就!:J’以获得AJE文本‘},自勺所丫J‘名L,IJ矢以语。从J几规则的分类器:本拟{究利川训练数据集,设i!出从J‘规则的分类器,‘已将川J几决定名L司i「lJ夕11_足台足致71与I大I索。JI七J从KMCINll),JI擎斩汀{l}义件,l,了夫得的信息,这个分类器将到叮}发式的规则分派少lJ各个名i,,Ji,1』匆!。l冬15.1还给{!{个例句,L匕夕11”八55、)Ciatioll()t‘b()dy,1::,551;、。Ic、:‘,101Wcigl“tel:allgcwitllall一eause,n、)rtalityi:1tl:cclderly.”这个f.JJ几输入j·IJKM(’11’I然i岛.’i处J,11弓l擎后,经过KMcl处J,}l)!亏就示呀j、IJ11_个名L,IJ)、:丈i{}分别足:门):,55、)ei:,ti、);1二仪)b“,“ly
背背景知识识识 识识识识识识识识识识识图6.1机器学习的简要原理图如图6.1所示,学习算法能够根据预先所提供的-一组概念样木和背景知识获得1个对特定概念的模式的描述,以此来预测或判断某个概念是否为这个概念类别。概念样本为门例和反例,如在学习111n乳动物时,猫就是一个币例(因为‘已是[l[Il乳动物),蚁蛤就是个反例(囚为它不是一个喃乳动物)。背娥知识包含很多描述概念和样本的语,’泊勺情况,‘已日J’以足个概念的属性的可能取值及其层次、车南助句法规贝lJ、i’l’{语等。学习劝.法鼓终就足根州样本类型,背l共知识以及设计者的经验等构
本文编号:3551174
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:博士
【部分图文】:
致病!川索的分类本研究课题,!,,流行病学专家共审阅厂1600个来「IJ几关!l{I流行病’学杂志的文
图5.1DEEL系统的整体框架图KMclNLP引擎[65·“伙卜要用于从数据中提取语义等相关信息。它,lJ’以帮助研究者从生物医学领域的文献中找到感兴趣的知识,乡门1确定这止匕信息在UnitedMediealLanguagesystem(uMLs)[59,67]L},的具体概念不rl语义类)(,〕。J.仁J几uMLs提供的适川J几自然语一言处理的一T一具,在本课题,},,将应川KMC!去处理所有的在八JEI几发表的论文。KMel,:。J几规则表达式应川I,art。fspeeeh(l,05)tag168]愈7.法,这样就!:J’以获得AJE文本‘},自勺所丫J‘名L,IJ矢以语。从J几规则的分类器:本拟{究利川训练数据集,设i!出从J‘规则的分类器,‘已将川J几决定名L司i「lJ夕11_足台足致71与I大I索。JI七J从KMCINll),JI擎斩汀{l}义件,l,了夫得的信息,这个分类器将到叮}发式的规则分派少lJ各个名i,,Ji,1』匆!。l冬15.1还给{!{个例句,L匕夕11”八55、)Ciatioll()t‘b()dy,1::,551;、。Ic、:‘,101Wcigl“tel:allgcwitllall一eause,n、)rtalityi:1tl:cclderly.”这个f.JJ几输入j·IJKM(’11’I然i岛.’i处J,11弓l擎后,经过KMcl处J,}l)!亏就示呀j、IJ11_个名L,IJ)、:丈i{}分别足:门):,55、)ei:,ti、);1二仪)b“,“ly
背背景知识识识 识识识识识识识识识识识图6.1机器学习的简要原理图如图6.1所示,学习算法能够根据预先所提供的-一组概念样木和背景知识获得1个对特定概念的模式的描述,以此来预测或判断某个概念是否为这个概念类别。概念样本为门例和反例,如在学习111n乳动物时,猫就是一个币例(因为‘已是[l[Il乳动物),蚁蛤就是个反例(囚为它不是一个喃乳动物)。背娥知识包含很多描述概念和样本的语,’泊勺情况,‘已日J’以足个概念的属性的可能取值及其层次、车南助句法规贝lJ、i’l’{语等。学习劝.法鼓终就足根州样本类型,背l共知识以及设计者的经验等构
本文编号:3551174
本文链接:https://www.wllwen.com/yixuelunwen/swyx/3551174.html