政务领域自动问答系统研究与实现
发布时间:2021-04-11 09:38
近年来,我国的电子政务市场规模逐年增长,在线政务服务用户占整体网民比重越来越高,人们对于政务服务办事需求越来越多。目前许多省份推出了政务服务问答系统,但大都应用关键词匹配技术,到已有的数据库中查找与关键词相关的信息并返回给用户,或者构建常用问题库进行政务问答。现有系统中问题和问句相对固定,很难解决用户的实际问题。在政务服务问答系统中主要涉及一些服务事项,其描述具有有以下特点:1、办事事项数量多,事项之间存在关联。由于不同的行政区划,省级、市级、县级办事事项的总体数量庞大,办事种类也很繁杂,同时办事事项也并非独立存在,还存在一个事项关联其他事项、同一事项关联不同部门的情况。2、政务问答中问句特殊。由于政务办事事项存在部分名称较长、意义并列的情况,对于用户问句中政务办事事项的识别比一般的命名实体识别更为复杂。3、答案查找相对复杂。以简单的关键词匹配不能准确定位答案,以常见问题进行问答,用户不能自定义问题进行问答,只能询问固定的常见问题,同时由于事项之间存在关联,办事部门也并非独立存在,答案查找可能涉及推理过程。针对上述问题,本文的主要工作有:1)政务领域知识库构建:针对政务服务事项关联复杂...
【文章来源】:西南科技大学四川省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
四川政务服务网数据
2政务领域知识库构建11ORE[18]是首个大规模的中英文知识图谱,它的知识来源主要是不同结构的百科中的结构化数据,目前包含了2466956个概念,446236个属性和16284901个实体。通用知识图谱一般注重广度,概念、属性、实体的个数相对领域知识图谱较多,但其数据精确率不高。而领域知识图谱一般注重深度,其实体的属性以及数据的模式相对丰富。知识图谱结构上可以分为模式层、数据层两部分[19]。模式层中结点表示本体,边表示本体的概念关系。数据层则是由具体的事实组成,是对模式层定义的本体、概念关系的填充,在存储方面,图数据库则通过存储具体事实来存储知识图谱,其存储形式可以为:“实体-关系-实体”等。在构建方法上主要有有自底向上、自顶向下两种,此外,还可以综合以上两种构建方法来构建知识图谱,这类典型的知识图谱有百度知识图谱,就是采用混合方法来构建的。2.3.2构建流程对于政务知识库,由于政务服务数据的结构化程度非常高,对于其中的实体、属性、关系的抽取较为方便,因此本文采用自顶向下的构建方法,自顶向下的构建方法需要首先定义好知识图谱的模式层,然后依据构建的模式层再对知识图谱进行数据的填充。政务领域知识图谱构建主要由两个步骤组成,包括概念层设计以及知识图谱生成。构建流程如图2-3所示。图2-3政务本体构建流程图
西南科技大学硕士学位论文14表2-6政务本体及属性表(续)政务本体类/属性省级部门电话服务主题名称服务对象名称权力名称DataPropertyDataPropertyDataPropertyDataProperty2.3.4政务模式层构建概念层的设计是构建领域知识图谱的重要步骤,概念层确定后,其他数据就可以依据模式层进行填充,通过2.3.3节对政务领域数据的分析及提炼出的概念、属性、关系,本文使用本体构建工具Protege[26]构建了政务本体模式层。如图2-4所示。其中,实线表示类与子类的关系,虚线表示对象属性关系。图2-4政务本体模式层定义了事项实体、服务主题实体、服务对象实体、权力类型实体、行政区划实体、部门六类实体,并设计了各实体之间的关系,包括下设、主题对象、事项主题、事项对象、从属、办事层级、拥有权责、权力事项、权责事项、管辖十种关系。最终形成了包含实体及关系的概念模式。本文采用了W3C开发的网络本体语言OWL来描述政务领域本体,类表示定义的政务领域实体,相互之间是互斥的。属性包括对象属性以及数据属性,对象属性描述的是类之间的关系,所属领域及值域都是类,例如<行政区划下设部门>这一组关系,‘下设’指的就是对象属性,用来描述‘行政区划’和‘部门’之间的关系。数据属性描述的是类的属性,所属领域为类,值域为数据类型,例如<事项办理地点具体地点>这一组关系,‘办理地点’指的就是数据属性,描述的是‘事项’的属性‘办理地点’,‘具体地点’则是一种具体的数据类型,如‘xsd:string’。本文构建的政务领域本体部分代码如图2-5所示。
【参考文献】:
期刊论文
[1]基于社区问答数据迁移学习的FAQ问答模型研究[J]. 邵明锐,马登豪,陈跃国,覃雄派,杜小勇. 华东师范大学学报(自然科学版). 2019(05)
[2]知识图谱研究综述[J]. 黄恒琪,于娟,廖晓,席运江. 计算机系统应用. 2019(06)
[3]基于关键词加权的法律文本主题模型研究[J]. 张扬武,李国和,王立梅. 计算机与数字工程. 2019(05)
[4]基于深度神经网络的维吾尔文命名实体识别研究[J]. 王路路,艾山·吾买尔,吐尔根·依布拉音,买合木提·买买提,卡哈尔江·阿比的热西提. 中文信息学报. 2019(03)
[5]基于LSTM-CRF的中医医案症状术语识别[J]. 李明浩,刘忠,姚远哲. 计算机应用. 2018(S2)
[6]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[7]基于知识库的开放领域问答系统[J]. 张涛,贾真,李天瑞,黄雁勇. 智能系统学报. 2018(04)
[8]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[9]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[10]基于改进的Jaccard系数文档相似度计算方法[J]. 俞婷婷,徐彭娜,江育娥,林劼. 计算机系统应用. 2017(12)
博士论文
[1]面向大规模知识图谱的弹性语义推理方法研究及应用[D]. 陈曦.浙江大学 2017
本文编号:3131020
【文章来源】:西南科技大学四川省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
四川政务服务网数据
2政务领域知识库构建11ORE[18]是首个大规模的中英文知识图谱,它的知识来源主要是不同结构的百科中的结构化数据,目前包含了2466956个概念,446236个属性和16284901个实体。通用知识图谱一般注重广度,概念、属性、实体的个数相对领域知识图谱较多,但其数据精确率不高。而领域知识图谱一般注重深度,其实体的属性以及数据的模式相对丰富。知识图谱结构上可以分为模式层、数据层两部分[19]。模式层中结点表示本体,边表示本体的概念关系。数据层则是由具体的事实组成,是对模式层定义的本体、概念关系的填充,在存储方面,图数据库则通过存储具体事实来存储知识图谱,其存储形式可以为:“实体-关系-实体”等。在构建方法上主要有有自底向上、自顶向下两种,此外,还可以综合以上两种构建方法来构建知识图谱,这类典型的知识图谱有百度知识图谱,就是采用混合方法来构建的。2.3.2构建流程对于政务知识库,由于政务服务数据的结构化程度非常高,对于其中的实体、属性、关系的抽取较为方便,因此本文采用自顶向下的构建方法,自顶向下的构建方法需要首先定义好知识图谱的模式层,然后依据构建的模式层再对知识图谱进行数据的填充。政务领域知识图谱构建主要由两个步骤组成,包括概念层设计以及知识图谱生成。构建流程如图2-3所示。图2-3政务本体构建流程图
西南科技大学硕士学位论文14表2-6政务本体及属性表(续)政务本体类/属性省级部门电话服务主题名称服务对象名称权力名称DataPropertyDataPropertyDataPropertyDataProperty2.3.4政务模式层构建概念层的设计是构建领域知识图谱的重要步骤,概念层确定后,其他数据就可以依据模式层进行填充,通过2.3.3节对政务领域数据的分析及提炼出的概念、属性、关系,本文使用本体构建工具Protege[26]构建了政务本体模式层。如图2-4所示。其中,实线表示类与子类的关系,虚线表示对象属性关系。图2-4政务本体模式层定义了事项实体、服务主题实体、服务对象实体、权力类型实体、行政区划实体、部门六类实体,并设计了各实体之间的关系,包括下设、主题对象、事项主题、事项对象、从属、办事层级、拥有权责、权力事项、权责事项、管辖十种关系。最终形成了包含实体及关系的概念模式。本文采用了W3C开发的网络本体语言OWL来描述政务领域本体,类表示定义的政务领域实体,相互之间是互斥的。属性包括对象属性以及数据属性,对象属性描述的是类之间的关系,所属领域及值域都是类,例如<行政区划下设部门>这一组关系,‘下设’指的就是对象属性,用来描述‘行政区划’和‘部门’之间的关系。数据属性描述的是类的属性,所属领域为类,值域为数据类型,例如<事项办理地点具体地点>这一组关系,‘办理地点’指的就是数据属性,描述的是‘事项’的属性‘办理地点’,‘具体地点’则是一种具体的数据类型,如‘xsd:string’。本文构建的政务领域本体部分代码如图2-5所示。
【参考文献】:
期刊论文
[1]基于社区问答数据迁移学习的FAQ问答模型研究[J]. 邵明锐,马登豪,陈跃国,覃雄派,杜小勇. 华东师范大学学报(自然科学版). 2019(05)
[2]知识图谱研究综述[J]. 黄恒琪,于娟,廖晓,席运江. 计算机系统应用. 2019(06)
[3]基于关键词加权的法律文本主题模型研究[J]. 张扬武,李国和,王立梅. 计算机与数字工程. 2019(05)
[4]基于深度神经网络的维吾尔文命名实体识别研究[J]. 王路路,艾山·吾买尔,吐尔根·依布拉音,买合木提·买买提,卡哈尔江·阿比的热西提. 中文信息学报. 2019(03)
[5]基于LSTM-CRF的中医医案症状术语识别[J]. 李明浩,刘忠,姚远哲. 计算机应用. 2018(S2)
[6]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[7]基于知识库的开放领域问答系统[J]. 张涛,贾真,李天瑞,黄雁勇. 智能系统学报. 2018(04)
[8]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[9]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[10]基于改进的Jaccard系数文档相似度计算方法[J]. 俞婷婷,徐彭娜,江育娥,林劼. 计算机系统应用. 2017(12)
博士论文
[1]面向大规模知识图谱的弹性语义推理方法研究及应用[D]. 陈曦.浙江大学 2017
本文编号:3131020
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3131020.html
最近更新
教材专著