中文企业知识图谱构建与分析
本文选题:知识图谱 + 信息抽取 ; 参考:《华东师范大学》2016年硕士论文
【摘要】:Web资源蕴含了海量的结构化和非结构化知识,将这些碎片化知识进行抽取、整理和融合成为一个大规模知识图谱是互联网发展的趋势。知识图谱根据其包含的知识范畴被细分为开放知识图谱和垂直领域知识图谱。尽管开放知识图谱在近几年得到了巨大的发展,但是它们在垂直领域中并没有得到深入地应用,许多应用场景对垂直领域知识图谱提出了很大的需求,因此本文提出构建商业领域的企业知识图谱。本文从上市公司的公报数据中抽取了企业之间的商业往来关系,并从新闻文本数据中抽取了企业所发生的重大事件和事件摘要,最后对比分析了知识图谱和社交网络在图结构上的统计特征。本文的主要贡献如下:·提出了构建企业知识图谱的框架,将垂直领域的关系抽取任务抽象成分类问题,通过训练最大熵模型抽取企业之间不同类型的商业往来关系,关系抽取的准确率平均达到85%以上,部分特定关系的准确率达到95%以上,相比基于开放领域的关系抽取方法,本文方法的F1值平均提高了12.16%。本文从109万篇上市公司的公报数据和250万篇新闻数据中抽取了超过5万以上的命名实体和14万以上的实体关系,构建了完整的企业知识图谱。·采用聚类算法从新闻文档中抽取了企业的相关事件以及事件的发展过程,并提出基于事件关键词的词集覆盖优化算法抽取了事件的摘要。通过定义摘要的评估指标并和四种基准模型进行对比体现了本文方法的优越性,通过一个案例分析体现了本文方法在真实数据集上的有效性。本文总共抽取了3,073家上市公司包括8,205个新闻事件以及事件的摘要。·从图的角度出发,对同一知识图谱不同子图之间、不同类型的知识图谱之间以及知识图谱和社交网络之间在图结构上的统计特征进行了全面的对比分析。将四种知识图谱和两种社交网络在13个单值统计特征、4个分布统计特征上的表现进行分析,发现它们在多种统计特征上都有很大的差异,比如连通子图分布、节点凝聚因子、三角关系的数量等。通过对比分析这些统计特征,可以为知识图谱的数据管理提供参考意见。本文还对知识图谱的语义关系进行了关联度分析,表明关联度很高的语义关系之间通常具有很高的主题相关性。本文在构建企业知识图谱的过程中,对比了垂直领域知识图谱和开放知识图谱构建方法的区别,并根据垂直领域的特定问题给出了特定的解决方案,对一般领域知识图谱的构建具有实践意义。本文对比分析了知识图谱和社交网络在图结构上的统计特征,对知识图谱的数据管理比如存储、索引、查询优化等具有借鉴意义。
[Abstract]:Web resources contain a large amount of structured and unstructured knowledge. It is the trend of the Internet to extract, collate and merge these fragmented knowledge into a large-scale knowledge map. The knowledge map is subdivided into open knowledge map and vertical domain knowledge map according to the knowledge category it contains. Although the open knowledge map has been greatly developed in recent years, it has not been applied in the vertical field, and many application scenarios have put forward a great demand for the vertical domain knowledge map. Therefore, this paper proposes to construct the enterprise knowledge map in the field of business. In this paper, the business relations between enterprises are extracted from the bulletin data of the listed companies, and the important events and event summaries of the enterprises are extracted from the news text data. Finally, the statistical features of knowledge map and social network in graph structure are compared and analyzed. The main contributions of this paper are as follows: a framework of constructing enterprise knowledge map is proposed, which abstracts the relationship extraction tasks in vertical domain into classification problems, and extracts different types of business relationships among enterprises by training maximum entropy model. The accuracy of relation extraction is more than 85% on average, and that of some specific relationships is more than 95%. Compared with the open domain approach, the F1 value of this method is 12.16% higher than that of the open domain method. In this paper, more than 50, 000 named entities and more than 140000 entity relationships are extracted from 1.09 million public company bulletins and 2.5 million news data. A complete enterprise knowledge map is constructed, and the related events and the development process of events are extracted from news documents by clustering algorithm, and a word set coverage optimization algorithm based on event keywords is proposed to extract the summary of events. By defining the evaluation index of the summary and comparing it with the four benchmark models, the superiority of this method is demonstrated, and the effectiveness of this method on the real data set is demonstrated by a case study. In this paper, a total of 3073 listed companies including 8205 news events and abstracts of events are extracted. The statistical features of graph structure between different types of knowledge maps and between knowledge maps and social networks are compared and analyzed. Four kinds of knowledge maps and two kinds of social networks are analyzed on 13 single value statistical features and 4 distribution statistical features, and it is found that they are very different in many statistical features, such as connected subgraph distribution, node aggregation factor. The number of triangular relationships, etc. By comparing and analyzing these statistical features, we can provide reference for data management of knowledge map. This paper also analyzes the semantic relationship of knowledge atlas, which shows that there is usually a high thematic correlation between semantic relationships with high correlation degree. In the process of constructing enterprise knowledge map, this paper compares the difference between vertical domain knowledge map and open knowledge map, and gives specific solutions according to the specific problems in vertical domain. It has practical significance for the construction of general domain knowledge map. In this paper, the statistical features of knowledge map and social network in graph structure are compared and analyzed, which can be used for reference in data management of knowledge map such as storage, index, query optimization and so on.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 邓擘;郑彦宁;傅继彬;;汉语实体关系模式的自动获取研究[J];计算机科学;2010年02期
2 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
3 朱姗;;基于规则和本体的实体关系抽取系统研究[J];情报杂志;2010年S2期
4 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
5 朱鸿宇;刘瑰;陈左宁;唐福华;;实体关系识别中长距离依赖问题的研究[J];小型微型计算机系统;2008年02期
6 周利娟;林鸿飞;罗文华;;基于实体关系的犯罪网络识别机制[J];计算机应用研究;2011年03期
7 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
8 李小红;钱龙华;;基于自举的弱指导中文实体关系抽取研究[J];高科技与产业化;2010年09期
9 董静;孙乐;冯元勇;黄瑞红;;中文实体关系抽取中的特征选择研究[J];中文信息学报;2007年04期
10 黄晨;钱龙华;周国栋;朱巧明;;基于卷积树核的无指导中文实体关系抽取研究[J];中文信息学报;2010年04期
相关会议论文 前3条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
相关博士学位论文 前4条
1 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年
2 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
3 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 施琦;无监督中文实体关系抽取研究[D];中国地质大学(北京);2015年
2 林家欣;基于多源知识的地理选择题答题方法研究[D];哈尔滨工业大学;2015年
3 刘绍毓;实体关系抽取关键技术研究[D];解放军信息工程大学;2015年
4 胡春艳;中文开放式实体关系抽取技术研究[D];东北大学;2014年
5 程文亮;中文企业知识图谱构建与分析[D];华东师范大学;2016年
6 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
7 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年
8 刘安安;开放式中文实体关系抽取研究[D];哈尔滨工业大学;2013年
9 陈超;基于互联网的二元实体关系抽取研究[D];华东师范大学;2013年
10 周蓝s,
本文编号:1862938
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1862938.html