基于人物角色事件的传记生成方法研究
发布时间:2017-05-13 01:10
本文关键词:基于人物角色事件的传记生成方法研究,由笔耕文化传播整理发布。
【摘要】:日常生活中,人物信息是人们最为关注的信息类型之一,有着重要的社会价值。传统的人物传记虽然提供了丰富的人物信息,但受材料和人力的制约已无法跟上信息时代大数据流的脚步。网络正逐步取代传统媒介,成为人们获取人物信息的主要渠道。借助搜索引擎可以实现网络中海量信息的筛选与定位,但返回的人物信息大多是分散且不完整的,同时夹杂着广告推送和重复网页等干扰信息,人们仍需耗费时间和精力去分析整理。因此,将信息过滤,将无结构的网络信息结构化,构建基于网络信息的人物传记有着十分重要的意义。针对这一问题,本文构建了人物信息的离线语料库,并以此展开后续的研究工作。本文的主要研究工作如下:(1)研究分析了人物传记自动生成方法,借鉴传统人物传记的模式中板块式和双线复调式的思想,给出了一种基于人物角色事件的传记模型。在众多的人物事件中,根据人物角色的不同,可以将人物事件分成不同的类别,每类事件分别作为描述时的一条主线,可以清晰地展示出人物的特点,并使人物事件的条理性更强。(2)分析人物传记构建所需材料,从网络中爬取并整理出相关的初始语料信息。针对语料信息中新闻报道精炼、结构简单的特点,设计了一种基于词语指纹的网页去重方法实现语料信息的净化。利用滑动窗对文本中的高频词汇切割分组,对得到的各词语片段进行哈希映射,获得的哈希码集合作为网页文本的词语指纹,根据词语指纹的匹配情况实现网页文本的去重,文中实验验证了该方法的可行性。(3)提出了一种基于事件描述特征的人物事件提取方法,根据描述同一类型事件常常使用相同词语的特点,将这部分词语赋予更高的权重并构造权重矩阵,获得事件描述特征,结合自适应邻域的聚类方法完成不同角色事件的凝练,最后对不同类型的角色事件进行时序摘要提取。本文实验中,利用事件描述词特征的事件凝练效果明显,查准率、查全率和F-score可分别达到93%,89%和89%。(4)借助可视化工具对获得的人物角色事件时序摘要进行可视化展示,选择适合描述事件时序摘要和事件描述词关系的隶属网络模型,构造二者间的关联矩阵,实现不同时间段、人物分饰不同角色时事件的可视化,借助中心度评测方法分析了其中事件描述词的参与情况及其对人物角色特点的意义。
【关键词】:人物传记 网页去重 事件凝练 时序摘要 可视化
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-21
- 1.1 研究背景与意义9-10
- 1.2 人物传记发展历程10-19
- 1.2.1 人物传记典型模式概述10-11
- 1.2.2 人物传记摘要流程概述11-13
- 1.2.3 人物传记生成技术概述13-19
- 1.3 本文主要工作和内容组织19-21
- 2 人物传记语料库的构建21-29
- 2.1 网络爬虫22-23
- 2.1.1 网络爬虫技术概述22
- 2.1.2 Scrapy爬取原理22-23
- 2.2 百度百科人物爬取23-24
- 2.3 媒体新闻报道爬取24-28
- 2.3.1 百度新闻高级搜索功能介绍24-25
- 2.3.2 文本数据的爬取与解析25-28
- 2.4 本章小结28-29
- 3 人物传记语料库的净化29-36
- 3.1 网页去重相关概念29-31
- 3.2 基于词语指纹的网页去重算法31-35
- 3.2.1 原始特征串提取31-32
- 3.2.2 词语指纹的生成32-33
- 3.2.3 网页词语指纹的匹配33
- 3.2.4 实验结果与分析33-35
- 3.3 本章小结35-36
- 4 人物传记的自动生成36-52
- 4.1 人物传记自动生成技术36
- 4.2 人物属性信息的提取36-39
- 4.2.1 半结构化信息提取38
- 4.2.2 非结构化信息提取38-39
- 4.3 人物事件的提取39-48
- 4.3.1 人物事件描述特征的提取40-44
- 4.3.2 不同角色事件的自动凝练44-48
- 4.3.3 人物事件的时序摘要生成48
- 4.4 实验结果与分析48-51
- 4.4.1 参数设定对聚类效果的影响50
- 4.4.2 与K-means算法的对比实验50-51
- 4.5 本章小结51-52
- 5 人物传记可视化方法52-62
- 5.1 人物角色事件分析方法52-53
- 5.1.1 社会网络模型52-53
- 5.1.2 隶属网络模型53
- 5.2 人物事件时序摘要与事件描述词矩阵53-55
- 5.2.1 事件描述词元素提取53-54
- 5.2.2 事件时序摘要元素提取54
- 5.2.3 事件描述词与时序摘要矩阵的构建54-55
- 5.3 人物角色事件的可视化分析55-61
- 5.4 本章小结61-62
- 结论62-64
- 参考文献64-67
- 攻读硕士学位期间发表学术论文情况67-68
- 致谢68-69
【参考文献】
中国期刊全文数据库 前1条
1 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
本文关键词:基于人物角色事件的传记生成方法研究,由笔耕文化传播整理发布。
,本文编号:361264
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/361264.html