基于MLN的开放式信息抽取技术的研究与应用

发布时间：2024-02-24 02:50

　　专利是科技文献的重要组成部分，包含了大量科学研究和技术创新的知识。然而，这些知识主要由无结构化的自然语言描述。导致了这种知识很难被计算机计算与理解。信息抽取技术由此应运而生，能够映射无结构或半结构知识为结构化知识。因此，对其进行的研究是件很有意义的工作。虽然信息抽取相关研究已经有20多年的历史，但传统的方法可扩展性差，表现在：人工干预度大、领域相关度高和规则匹配复杂等。正因为这一瓶颈，信息抽取研究正从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。开放式信息抽取在以英语为代表的西方语言中取得了重大进展，但对于汉语的研究显得相对不足。为此，该文主要针对中文专利进行了两项研究：第一，在专利双语摘要的基础上，进行了基于马尔科夫逻辑网的中文最大名词短语识别方法的研究。利用三类信息来识别最大名词短语的边界：句子自身的信息、迁移的特征信息和双语信息。实验表明：双语信息能够较好地辅助动词的识别，该方法最大名词短语识别的F值可达83.27%，相比目前最优越的伯克利句法分析器的识别结果提升了23.36%，而且该方法简单可维护。第二，在带有分层组块的最大名词短语基础上，研究了...

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

图4.2宾州树库阈值性能分布图

“……与MNP[通信网络]相连……”，同理，从该词开始，直到“的”，则不为分隔符，如，“……MNP[与输入内容相对应的元数据别出来的MNP长度为1，则过滤。!isSeg(i1-1)Λ!isSeg(i1+1)=>!isSeg(i1)isSeg(i1-1)=>i....

图4.3专利树库阈值性能分布图

断过句的24,485篇章中均匀采样220句进行人工标注，作为测试old被用来最终界定是否为分隔符，大于该阈值的是分隔符。为了模型（包含全部公式）的影响，本文针对迁移的两种树库，设定位，按步长0.01测试，结果如图4.2和4.3所示。图4.2宾州树库阈值....

图5.2取阈值高的情况错误所占比同时将错误较大的1%选取进行人工标注

的应对非线性可分问题。所以本文以支持向量机为底层模型，采用自动获取训练语料。该算法一个关键的问题是阈值的选取。使用50m，实验发现取打分前12%的错误较低。结果如图5.2所示。

图5.3取阈值低的情况错误所占比过滤不满足假设的实体对后，剩下未标注的有8539对

系统界面见附录II。系统流程图如图5.1所示。图5.1系统流程图5.3开放式实体关系抽取方法5.3.1中文开放式实体关系抽取问题定义OERE输出的形式为三元组t=(ei,rij,ej)，i≠j，其中ei和ej代表语义实体的字符串，rij代表两个实体之间....

本文编号：3908399

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shekelunwen/ljx/3908399.html

上一篇：论“功能化的还原模型”
下一篇：产品设计中感性因素与理性因素的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|