网络人物属性关系抽取方法研究

发布时间:2021-09-06 19:34
  人物搜索引擎、知识图谱构建和人物画像等系统依赖于大量的人物数据,然而互联网上的人物数据以碎片化的形式存在,且无结构的文本占很大的比重,很难直接加以利用。人物属性关系抽取就是处理这些无结构文本,从中抽取出人物属性及其对应关系,方便上述系统的使用。然而现有的研究自动化程度不高,一方面需要人工标注语料库和数据集,成本昂贵;另一方面又需要人为地制定抽取规则或者构建人工特征,这很难覆盖原有的样本空间,且其过度依赖自然语言处理工具,严重制约着系统的效率和性能。针对上述现状,本文对网络中与人物相关的无结构文本进行研究。主要工作如下:(1)为获得自动标注的数据集,本文采取远程监督的方法,利用现有的结构化数据对齐到语料库中,自动获得大量的标注数据集。相比于传统远程监督数据源,本文的数据源结合了维基百科、纽约时报和人物传记网的不同特点,能够更好地反映自然语言丰富多样的表达。(2)针对远程监督数据集的噪声问题,本文提出了一种增强型去噪模型,该模型分为两个阶段。第一个阶段构建了融合最短依存路径和词窗口的关系模板,并通过计算关系模板和关系触发词集的语义Jaccard系数,进行初步去噪。第二个阶段采用了众数过滤的... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

网络人物属性关系抽取方法研究


维基百科人物页面

网络人物属性关系抽取方法研究


人物传记网人物页面

网络人物属性关系抽取方法研究


依存句法解析结果1

【参考文献】:
期刊论文
[1]自然语言处理中词语上下文有效范围的定量描述[J]. 鲁松,白硕.  计算机学报. 2001(07)

博士论文
[1]实体关系抽取算法研究[D]. 张春云.北京邮电大学 2015

硕士论文
[1]基于规则的百科人物属性抽取算法的研究[D]. 李红亮.西南交通大学 2013



本文编号:3388049

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3388049.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户833a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com