基于知识图谱的地理实体关系构建研究

发布时间:2021-02-15 22:40
  当前,网络中存在着海量的地理数据,但是想要从互联网中将这些大量的、类型多样的数据中抽取出地理实体关系或结构化地理信息较为困难。知识图谱是一个语义网络,其作用在于对现实中的实体与实体之间的关系进行描述,在众多领域都有运用。从网络中抽取地理信息,然后通过知识图谱来获取地理信息知识,是目前这个领域的常用方法。针对当前互联网中海量而又复杂的地理信息利用较为困难的问题,本文以知识图谱为基础,设计了一种在地理领域中基于网络文本的实体关系构建的方法,其主要内容包括:(1)针对地理信息采集之后网络文本过于繁杂的问题,本文建立一个以TF-IDF算法为基础的文本分类方式,首先在文本预处理中添加地理词典,然后通过建立文本向量空间模型,并修正TF-IDF地理特征权重运算方式,最后选择K临近算法来实现文本的分类。本研究利用地理词典来处理特征维度,能够使其维度进一步降低,而修正的特征权重运算方式可以对分类结果进行优化,从而进一步清除不属于地理的网络文本。(2)一般只有存在海量人工标注的语料时才可以实现关系构建,同时这种以弱监督回标为基础的构建模式,在获取训练语料的过程中常常出现大量的噪声,而且还会出现语料数量不足... 

【文章来源】:北京建筑大学北京市

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

基于知识图谱的地理实体关系构建研究


技术路线图

模型图,随机场,条件,模型


第2章知识图谱及关键技术11对文本分词词性标注、词法分析等工作。首先给定观察序列={1,2,…,},输出对应的标注序列为={1,2,…,}。CRF就是建立一个条件概率模型,使观察序列与输出标注系列相互对应。如下图2-4图2-4条件随机场模型Fig.2-4CRFModel对于上图2-4中的模型,我们定义两种特征:状态特征和转移特征。(1)状态特征:定义在结点上,表示这个结点是否拥有某个属性。(2)转移特征:定义在边上,表示两个状态是否会因为某个特征而转移。用数学公式来表达这些特征:假设定义了K1个转移特征1,2,…,1,定义了K2个状态特征{1,2,…,1},当一个结点拥有状态特征时,=1,否则,=0。则状态特征公式为2-5:=(,,)∈{0,1}=1,2,1,=1,2,(2-5)一个结点的状态特征只与这个结点和观测序列有关,其他结点无关,同理,转移特征可以表示如下公式2-6:=(1,,,)∈{0,1}=1,2,2,=2,3,(2-6)在此定义转移特征的权值为,状态特征的权值为,则当我们得到观测序列=(1,2,…,),状态序列为=(1,2,…,)时的所有结点的特征之和为下列公式2-7:∑(1,,,),+∑(,,),(2-7)为了保证概率值不能是负的,所以将这个特征和变换为正值,并且保证各个状态序列特征和大小关系不变,所以使用指数函数exp进行变换得到,再把这个结果规范化后就得到了概率函数了,也是线性链条件随机场的参数化形式定义,公式2-8:(|)=1()(∑(1,,,),+∑(,,),)(2-8)

标签,示例,词条,信息


中文百度百科目前拥有超过1500万条词条数量,我们接触到的所有领域都有涉足,同时很多词条页面都具有信息盒,信息盒通过列表模式表现出实体关系,因此我们可以选择网络爬虫程序来抽取信息,并将这些信息当成知识三元组“<实体-关系-实体>”的初始种子。对论文涉及的地理区域进行定位。 百科网页文本信息一般表达为 HTML 语言模式,而爬虫程序获取的信息不可以用于训练语料,还应进行解析操作,机器才能识别。因此,通过大量的词条源文件研究,得出所有词条对应的信息和格式是为 HTML 语言模式,采用“basicInfo-itme name”属性值的<dt>与</dt>标签之间对实体关系名进行定义,有:“行政区类别”、邮政区码”。“basicInfo-item value”属性值的<dd>与</dd>标签进行实体定义,有“邮政区码”与“102600”,“行政区类别”与“镇”相对应。见下图 3-3。

【参考文献】:
期刊论文
[1]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁.  计算机与现代化. 2018(08)
[2]A Novel Active Learning Method Using SVM for Text Classification[J]. Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali.  International Journal of Automation and Computing. 2018(03)
[3]基于Jena系统的知识融合三元组存储结构研究[J]. 杨夏柏,杨明,杨德强,黄瑜.  价值工程. 2018(08)
[4]论地理知识图谱[J]. 陆锋,余丽,仇培元.  地球信息科学学报. 2017(06)
[5]海量RDF数据存储查询研究[J]. 肖佳,肖诗斌,王洪俊.  北京信息科技大学学报(自然科学版). 2017(03)
[6]知识图谱的发展与构建[J]. 李涛,王次臣,李华康.  南京理工大学学报. 2017(01)
[7]知识图谱研究进展[J]. 漆桂林,高桓,吴天星.  情报工程. 2017(01)
[8]开放式地理实体关系抽取的Bootstrapping方法[J]. 余丽,陆锋,刘希亮.  测绘学报. 2016(05)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[10]基于图形数据库Neo4j的RDF数据存储研究[J]. 康杰华,罗章璇.  信息技术. 2015(06)

博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
[2]文档数据库若干关键技术研究[D]. 刘永丹.复旦大学 2004

硕士论文
[1]基于朴素贝叶斯的文本分类算法研究[D]. 何伟.南京邮电大学 2018
[2]基于文本挖掘的领域知识图谱构建方法的研究与实现[D]. 刘霄阳.北京交通大学 2019
[3]基于改进的朴素贝叶斯算法和KNN算法在招聘文本分类中的应用[D]. 刘欣.河南大学 2019
[4]文本分类TF-IDF算法的改进研究[D]. 叶雪梅.合肥工业大学 2019
[5]基于知识图谱的农业知识服务系统研究[D]. 夏迎春.安徽农业大学 2018
[6]基于互联网的地理实体信息获取关键技术研究[D]. 杨瑞杰.解放军信息工程大学 2017
[7]大规模Web信息抽取与文本分类研究[D]. 曹攀.南京邮电大学 2016
[8]Redis缓存技术研究及应用[D]. 邱书洋.郑州大学 2016
[9]基于深度学习的商业领域知识图谱构建[D]. 袁旭萍.华东师范大学 2015
[10]NoSQL数据库技术及其应用研究[D]. 沈姝.南京信息工程大学 2012



本文编号:3035655

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3035655.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d78a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com