网络人物属性关系抽取方法研究
发布时间:2021-09-06 19:34
人物搜索引擎、知识图谱构建和人物画像等系统依赖于大量的人物数据,然而互联网上的人物数据以碎片化的形式存在,且无结构的文本占很大的比重,很难直接加以利用。人物属性关系抽取就是处理这些无结构文本,从中抽取出人物属性及其对应关系,方便上述系统的使用。然而现有的研究自动化程度不高,一方面需要人工标注语料库和数据集,成本昂贵;另一方面又需要人为地制定抽取规则或者构建人工特征,这很难覆盖原有的样本空间,且其过度依赖自然语言处理工具,严重制约着系统的效率和性能。针对上述现状,本文对网络中与人物相关的无结构文本进行研究。主要工作如下:(1)为获得自动标注的数据集,本文采取远程监督的方法,利用现有的结构化数据对齐到语料库中,自动获得大量的标注数据集。相比于传统远程监督数据源,本文的数据源结合了维基百科、纽约时报和人物传记网的不同特点,能够更好地反映自然语言丰富多样的表达。(2)针对远程监督数据集的噪声问题,本文提出了一种增强型去噪模型,该模型分为两个阶段。第一个阶段构建了融合最短依存路径和词窗口的关系模板,并通过计算关系模板和关系触发词集的语义Jaccard系数,进行初步去噪。第二个阶段采用了众数过滤的...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
维基百科人物页面
人物传记网人物页面
依存句法解析结果1
【参考文献】:
期刊论文
[1]自然语言处理中词语上下文有效范围的定量描述[J]. 鲁松,白硕. 计算机学报. 2001(07)
博士论文
[1]实体关系抽取算法研究[D]. 张春云.北京邮电大学 2015
硕士论文
[1]基于规则的百科人物属性抽取算法的研究[D]. 李红亮.西南交通大学 2013
本文编号:3388049
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
维基百科人物页面
人物传记网人物页面
依存句法解析结果1
【参考文献】:
期刊论文
[1]自然语言处理中词语上下文有效范围的定量描述[J]. 鲁松,白硕. 计算机学报. 2001(07)
博士论文
[1]实体关系抽取算法研究[D]. 张春云.北京邮电大学 2015
硕士论文
[1]基于规则的百科人物属性抽取算法的研究[D]. 李红亮.西南交通大学 2013
本文编号:3388049
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3388049.html
最近更新
教材专著