基于web的工业产品知识图谱构建及应用

发布时间:2018-05-13 20:03

  本文选题:知识图谱 + 实体识别 ; 参考:《沈阳航空航天大学》2017年硕士论文


【摘要】:随着互联网+时代的到来,无论是企业还是个人对于网络资源的依赖都将显得尤为凸出。目前,网络上关于工业产品的资源有很多,涉及到在线百科,垂直网站和电商网站等,如何将这些不同的“知识”融合在一起,绘制出一个产品与产品之间,产品及其属性之间的知识图谱,一直是研究者们致力的方向。由于web上工业产品的信息更新速度快,而知识图谱的内容也是不断动态更新的,因此为了及时地向图谱中补充产品的最新信息,本文将web作为构建产品知识图谱的信息来源,将web中包含产品信息的非结构化文本作为语料资源,对其进行实体识别和实体关系抽取研究。在实体识别方面,本文提出了一种基于混合模型的方法来识别产品名称、产品属性及属性值三类实体,并根据产品属性的特点,将其分为通用属性和专用属性两类,对于通用属性及其属性值的识别,采用了基于规则的方法,对于产品名称、专用属性及其属性值的识别,采用了两阶段的方法,实验表明,该方法融合了规则、边界后处理、CRF与SVM的优势,无论在效果还是效率上均取得了令人满意的结果。在实体关系抽取方面,本文以句子为单位,采用模式匹配的方法对产品名称、产品属性、属性值三元组进行抽取,通过对模式的不断丰富和完善,该方法的抽取结果能够很好的反应出文本中的产品信息。最后,设计实现了基于web的工业产品知识图谱构建及应用系统。该系统集成了信息采集模块和知识图谱构建模块,其中信息采集模块可以实时采集网络上的信息资源,而知识图谱构建模块可以抽取出其中的结构化信息,然后利用Neo4j图数据库进行图谱展示,并实现了产品信息可视化和相关产品推荐的应用。
[Abstract]:With the advent of the Internet era, the dependence of enterprises and individuals on network resources will be particularly prominent. At present, there are a lot of resources about industrial products on the Internet, including online encyclopedia, vertical websites and e-commerce websites, how to combine these different "knowledge" to draw a product and product. The knowledge map between products and their attributes has been the direction of researchers. Because the information of industrial products on web is updated quickly, and the content of knowledge map is constantly updated, in order to supplement the latest information of product in time, this paper regards web as the source of information to construct product knowledge map. The unstructured text containing product information in web is used as a corpus resource for entity recognition and entity relation extraction. In the aspect of entity recognition, this paper proposes a hybrid model based method to identify product name, product attribute and attribute value. According to the characteristics of product attribute, it can be divided into general attribute and special attribute. For the recognition of general attributes and their attribute values, a rule-based method is adopted. For the recognition of product names, special attributes and their attribute values, a two-stage method is adopted. The advantages of CRF and SVM obtained satisfactory results both in effect and efficiency. In the aspect of entity relation extraction, this paper takes sentence as unit, adopts pattern matching method to extract product name, product attribute and attribute value triple, through the continuous enrichment and perfection of pattern, The result of this method can well reflect the product information in the text. Finally, the industrial product knowledge map construction and application system based on web are designed and implemented. The system integrates information acquisition module and knowledge map building module, in which the information collection module can collect information resources on the network in real time, and the knowledge map building module can extract the structured information. Then the Neo4j graph database is used to display the graph, and the application of product information visualization and related product recommendation is realized.
【学位授予单位】:沈阳航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 刘玉娇;琚生根;李若晨;金玉;;基于深度学习的中文微博命名实体识别[J];四川大学学报(工程科学版);2016年S2期

2 余丽;陆锋;刘希亮;;开放式地理实体关系抽取的Bootstrapping方法[J];测绘学报;2016年05期

3 冯蕴天;张宏军;郝文宁;陈刚;;基于深度信念网络的命名实体识别[J];计算机科学;2016年04期

4 孙东普;朱鸣华;林鸿飞;;中文专利属性值对抽取技术及应用[J];计算机工程与科学;2016年04期

5 陆晓华;张宇;钱进;;基于图数据库的电影知识图谱应用研究[J];现代计算机(专业版);2016年07期

6 王仁武;袁毅;袁旭萍;;基于深度学习与图数据库构建中文商业知识图谱的探索研究[J];图书与情报;2016年01期

7 周详;李少波;杨观赐;;服装类商品属性实体识别[J];计算机应用;2015年07期

8 秦兵;刘安安;刘挺;;无指导的中文开放式实体关系抽取[J];计算机研究与发展;2015年05期

9 刘方驰;钟志农;雷霖;吴烨;;基于机器学习的实体关系抽取方法[J];兵工自动化;2013年09期

10 郭剑毅;李真;余正涛;张志坤;;领域本体概念实例、属性和属性值的抽取及关系预测[J];南京大学学报(自然科学版);2012年04期

相关硕士学位论文 前4条

1 李芳;基于条件随机场的两阶段中文微博命名实体识别研究[D];西华大学;2015年

2 刘丽佳;领域实体属性关系抽取方法研究[D];昆明理工大学;2015年

3 阚琪;基于条件随机场的命名实体识别及实体关系识别的研究与应用[D];北京交通大学;2015年

4 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年



本文编号:1884605

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1884605.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2d6a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com