当前位置:主页 > 社科论文 > 逻辑论文 >

基于MLN的开放式信息抽取技术的研究与应用

发布时间:2024-02-24 02:50
  专利是科技文献的重要组成部分,包含了大量科学研究和技术创新的知识。然而,这些知识主要由无结构化的自然语言描述。导致了这种知识很难被计算机计算与理解。信息抽取技术由此应运而生,能够映射无结构或半结构知识为结构化知识。因此,对其进行的研究是件很有意义的工作。 虽然信息抽取相关研究已经有20多年的历史,但传统的方法可扩展性差,表现在:人工干预度大、领域相关度高和规则匹配复杂等。正因为这一瓶颈,信息抽取研究正从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。 开放式信息抽取在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究显得相对不足。为此,该文主要针对中文专利进行了两项研究: 第一,在专利双语摘要的基础上,进行了基于马尔科夫逻辑网的中文最大名词短语识别方法的研究。利用三类信息来识别最大名词短语的边界:句子自身的信息、迁移的特征信息和双语信息。实验表明:双语信息能够较好地辅助动词的识别,该方法最大名词短语识别的F值可达83.27%,相比目前最优越的伯克利句法分析器的识别结果提升了23.36%,而且该方法简单可维护。 第二,在带有分层组块的最大名词短语基础上,研究了...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图4.2宾州树库阈值性能分布图

图4.2宾州树库阈值性能分布图

“……与MNP[通信网络]相连……”,同理,从该词开始,直到“的”,则不为分隔符,如,“……MNP[与输入内容相对应的元数据别出来的MNP长度为1,则过滤。!isSeg(i1-1)Λ!isSeg(i1+1)=>!isSeg(i1)isSeg(i1-1)=>i....


图4.3专利树库阈值性能分布图

图4.3专利树库阈值性能分布图

断过句的24,485篇章中均匀采样220句进行人工标注,作为测试old被用来最终界定是否为分隔符,大于该阈值的是分隔符。为了模型(包含全部公式)的影响,本文针对迁移的两种树库,设定位,按步长0.01测试,结果如图4.2和4.3所示。图4.2宾州树库阈值....


图5.2取阈值高的情况错误所占比同时将错误较大的1%选取进行人工标注

图5.2取阈值高的情况错误所占比同时将错误较大的1%选取进行人工标注

的应对非线性可分问题。所以本文以支持向量机为底层模型,采用自动获取训练语料。该算法一个关键的问题是阈值的选取。使用50m,实验发现取打分前12%的错误较低。结果如图5.2所示。


图5.3取阈值低的情况错误所占比过滤不满足假设的实体对后,剩下未标注的有8539对

图5.3取阈值低的情况错误所占比过滤不满足假设的实体对后,剩下未标注的有8539对

系统界面见附录II。系统流程图如图5.1所示。图5.1系统流程图5.3开放式实体关系抽取方法5.3.1中文开放式实体关系抽取问题定义OERE输出的形式为三元组t=(ei,rij,ej),i≠j,其中ei和ej代表语义实体的字符串,rij代表两个实体之间....



本文编号:3908399

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/ljx/3908399.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e0d5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com