基于Web文本和知识图谱的实体摘要
本文选题:实体摘要 + 词向量 ; 参考:《华东师范大学》2016年博士论文
【摘要】:在物联网、互联网和云计算深度融合的背景下,半结构化、非结构化的Web数据暴增。用户在进行信息检索时,很容易迷航在海量异构的碎片化数据中,如何快速、精准地帮助用户定位到他们感兴趣的Web实体或者知识成为亟待解决的问题之一。一方面,传统的信息检索系统旨在获取海量与查询相关的Web文本,而缺乏对文本语义的概括能力。另一方面:为探索非结构化文本中的语义信息,许多知识图谱整合了亿万级实体、属性以及关系。然而,,面对如此庞大和异构的碎片化信息,如何帮助用户进行知识导航仍然是一个挑战。所以,本文以文本和知识图谱上实体摘要技术为研究对象,以应对信息过载和用户迷航问题。本文针对海量Web文本的动态特征,首先提出了基于文本的事件实体摘要的算法;其次,针对用户个性化需求,设计了知识图谱中上下文感知的实体摘要方法;最后,针对碎片化信息的异构性和不完备性,提出了跨知识图谱的实体摘要算法。主要贡献包括以下几个方面:·针对文本数据的海量性和动态性,提出了基于文本的事件实体摘要算法。Web2.0时代,不仅同一事件的描述碎片化地分散在不同的Web数据源中,而且在事件的不同发展阶段信息碎片化现象更为严重。本文利用主题聚类模型挖掘这些事件,针对每个事件,将事件摘要建模成集合覆盖问题,设计并实现了贪心算法解决这个NP-hard问题,以生成对事件的摘要。·针对用户的智能化需求,在知识图谱上设计了上下文感知的实体摘要算法。为应对知识图谱上知识过载和迷航的问题,本文基于用户查询历史,利用主题模型生成用户偏好,并以此为基础响应用户智能化知识导航的需求,基于Markov模型设计了上下文感知的实体摘要算法。·针对知识图谱的异构性和不完备性,提出了跨知识图谱的实体摘要算法。不同知识图谱对实体的描述不仅可能相互补充,而且可以相互佐证,帮助用户获取到更为准确的查询结果。本文基于词向量技术实现了知识图谱间实体匹配和融合技术,并在此基础上响应用户的实体摘要需求。本文提出的算法不仅能整合多个知识图谱,而且提高了实体摘要算法的知识覆盖率和摘要质量。·针对数据碎片化特点,设计并实现了一个实体摘要演示系统。基于本文设计并实现的三个实体摘要算法,以及其他文本挖掘和自然语言处理工具,构建了一个以实体摘要为中心、分布式和四层架构的的Web演示系统EntitySum-marizer。它能够分析用户给定的查询,识别用户感兴趣的Web实体,并根据本文提出的技术生成多种实体摘要。此外,它还支持对摘要关键词生成和事件时间线生成等生成摘要的文本分析。本文所提出的实体摘要方法不仅能够缓解信息碎片化带来的信息过载和知识迷航问题,设计并实现的演示系统为研究用户多样化的实体摘要需求提供了数据准备和示范作用。
[Abstract]:In the context of the deep integration of the Internet of things, the Internet and cloud computing, semi-structured, unstructured Web data has exploded. In the process of information retrieval, it is easy to misunderstand how to quickly and accurately locate the Web entities or knowledge that users are interested in a large number of heterogeneous fragmented data, which becomes one of the problems to be solved urgently. On the one hand, the traditional information retrieval system aims to obtain a large number of Web texts related to query, but lacks the ability to generalize text semantics. On the other hand, in order to explore semantic information in unstructured text, many knowledge maps integrate billions of entities, attributes and relationships. However, in the face of such a large and heterogeneous fragmentation of information, how to help users navigate knowledge remains a challenge. Therefore, this paper takes the entity abstract technology on text and knowledge map as the research object to deal with the problem of information overload and user confusion. Aiming at the dynamic features of massive Web texts, this paper firstly proposes a text-based event entity summary algorithm; secondly, according to the user's personalized requirements, a context-aware entity summary method in knowledge atlas is designed. Aiming at the heterogeneity and incompleteness of fragmented information, an entity summary algorithm across knowledge atlas is proposed. The main contributions are as follows: in view of the magnanimity and dynamic nature of text data, a text-based event entity summary algorithm, Web 2.0, is proposed, in which not only the description of the same event is fragmented in different Web data sources. Moreover, the phenomenon of information fragmentation in different stages of events is more serious. In this paper, the topic clustering model is used to mine these events. For each event, the event summary is modeled as a set overlay problem, and a greedy algorithm is designed and implemented to solve the NP-hard problem. In order to generate a summary of events, a context-aware entity summary algorithm is designed based on the knowledge graph to meet the intelligent requirements of users. In order to deal with the problem of knowledge overload and confusion on knowledge map, based on the query history of users, this paper uses the topic model to generate user preferences, and on this basis responds to the demand of intelligent knowledge navigation of users. Based on Markov model, a context-aware entity summary algorithm is designed, and an entity summary algorithm across knowledge atlas is proposed to deal with the heterogeneity and incompleteness of knowledge atlas. The descriptions of entities in different knowledge maps may not only complement each other but also corroborate each other and help users obtain more accurate query results. In this paper, the entity matching and fusion technology among knowledge maps is realized based on word vector technology, and the entity summary requirements of users are responded to on this basis. The algorithm proposed in this paper can not only integrate multiple knowledge maps, but also improve the knowledge coverage and summary quality of the entity summary algorithm. According to the characteristics of data fragmentation, an entity summary demonstration system is designed and implemented. Based on the three entity summary algorithms designed and implemented in this paper, as well as other text mining and natural language processing tools, an entity Sum-marizer-based distributed and four-tier Web presentation system is constructed. It can analyze the query given by the user, identify the Web entity of interest to the user, and generate a variety of entity abstracts according to the technology proposed in this paper. In addition, it supports text analysis of summary keyword generation and event timeline generation. The entity summary method proposed in this paper can not only alleviate the problem of information overload and knowledge confusion caused by fragmentation of information, but also provide data preparation and demonstration for the study of user's diverse entity summary requirements.
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 孙铁利;王圆;;一个基于人工神经网络的Web文本过滤系统[J];计算机时代;2006年06期
2 李光敏;许新山;熊旭辉;;Web文本情感分析研究综述[J];现代情报;2014年05期
3 刘明吉;饶一梅;王秀峰;黄亚楼;;基于模糊近似度的Web文本过滤模型[J];计算机科学;2001年12期
4 王序臻;;Web文本层次分类方法研究[J];温州职业技术学院学报;2008年03期
5 邹志华;田生伟;禹龙;冯冠军;;改进的维吾尔语Web文本后缀树聚类[J];中文信息学报;2013年02期
6 王景中;郭兆亮;;基于分层的中文Web文本内容过滤研究[J];网络安全技术与应用;2012年11期
7 曹建芳;王鸿斌;;一种新的基于SVM-KNN的Web文本分类算法[J];计算机与数字工程;2010年04期
8 李泽峰;王煜;;基于RBF神经网络和关联规则的Web文本分类规则获取方法[J];图书情报工作;2006年10期
9 王健;韩广琳;;基于统计的Web文本自动摘要技术分析[J];福建电脑;2007年08期
10 翁_g;胡长军;席强;张学春;;一种面向e-Science环境的多领域Web文本特征抽取模型[J];小型微型计算机系统;2011年01期
相关会议论文 前3条
1 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
2 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
相关博士学位论文 前2条
1 闫季鸿;基于Web文本和知识图谱的实体摘要[D];华东师范大学;2016年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
相关硕士学位论文 前8条
1 于帅;中文Web文本情感倾向性分析技术的研究[D];哈尔滨工程大学;2013年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
4 邓琨;基于Rough集的Web文本分类及其信息抽取研究[D];南昌大学;2007年
5 桂海霞;利用表格等信息的Web文本分类研究与实现[D];安徽理工大学;2008年
6 张谌奇;支持向量机在Web文本分类中的分析与应用[D];暨南大学;2008年
7 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
8 张宏兵;Web文本挖掘技术在网页推荐中的应用研究[D];南京理工大学;2013年
本文编号:2078624
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2078624.html