当前位置:主页 > 科技论文 > 软件论文 >

海量异构少数民族文化资源融合研究

发布时间:2022-02-08 12:01
  在拥有庞大数据的信息时代,如何从分散的、隐藏的、异构的数据中找到用户所需要的信息,如何将信息从数据层面上升到知识层面,如何随着新知识产生完成高质量知识服务就显得尤为重要。云南的少数民族文化资源非常丰富,但这些资源却存在着不同程度的分散和异构,有碍于少数民族文化资源的有效传播和利用,而异构知识融合可以从分散的、异构的知识源中挖掘出尚未被发现、隐含、有用的知识,这正好为少数民族文化资源的知识获取、知识组织和知识利用提供了很好的方法和手段。因此,本文对海量异构少数民族文化资源融合进行深入的研究,主要包括以下三个方面:(1)构建了少数民族文化资源异构知识库。首先对少数民族文化资源进行预处理,其中在对文本资源处理时,提出了基于HMM的分词及词性标注方法和基于BiLSTM-CRF模型的命名实体识别方法;然后采用句法分析技术抽出实体间的关系;最后将抽取的知识以RDF/XML的形式存储并构成少数民族文化资源异构知识库。(2)提出一种少数民族文化资源的知识融合算法。针对传统模式下海量少数民族文化资源融合算法速度慢的问题,本文在Hadoop平台和MapReduce并行计算框架下提出一种基于属性和规则的知识... 

【文章来源】:云南师范大学云南省

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

海量异构少数民族文化资源融合研究


少数民族文化资源知识库模型框架

百度,少数民族,信息


Step1. 读取 Web 数据Step2. 清理冗余 HTML 标签及无关的样式Step3. 提取<body>中的内容Step4. 获取<body>中的列表内容Step5. 获取<body>中的表格内容Step6. 读取<body>中剩余的词句Step7. 输出解析结果对少数民族文化资源知识语料的文档进行 DOM 树解析,主要有三个步骤化 HTML 标记,去掉冗余标签;进行 DOM 树解析,抽取各模块内容;将块内容交由相应的子任务程序处理。(2)HTML 表格通过爬虫获得搜狗百科、百度百科、互动百科和 360 百科下的半结构化的信息,采用 Java 语言针对不同网站不同的标签规则来爬取我们所需要的信息过命名实体间联系,我们查看表中每一列的实体表示的谓词以及每一列对系和推理,并将这些半结构化信息提取保存成 RDF/XML 格式,在这类网页中,网页标题就是一个概念实体,表格中分别是概念实体的属性和属性值。

少数民族,百度,信息抽取,三元组


图 3.3 少数民族百度百科词条信息抽取出的三元组在百科网上总共抓取了 2462 个包含少数民族文化资源的网页,这些少数民族文化资源的种类主要有 55 个少数民族的节日、服饰、风俗、宗教、伦理、哲学等文化资源,并且,每个网站少数民族的文档数都达到了一定数量,如表 3.1所示。表 3.1 半结构化少数民族知识语料库统计百科 文档数搜狗百科 963百度百科 718360 百科 602互动百科 179总计 24623.2.2 面向非结构化数据的知识抽取

【参考文献】:
期刊论文
[1]基于多元语义网络的民族信息资源库构建研究[J]. 王俊,高炜.  苏州科技大学学报(自然科学版). 2018(03)
[2]面向网络大数据的建设项目施工领域知识融合框架研究[J]. 张小龙,戚欣,王婉.  工程建设. 2018(08)
[3]多源文本知识融合算法分析[J]. 闫昱姝,雷玉霞.  软件导刊. 2018(05)
[4]网络大数据中的知识融合框架研究[J]. 周利琴,范昊,潘建鹏.  情报杂志. 2018(01)
[5]开放世界视角:面向多源词表的知识融合框架MtFFO研究[J]. 严承希,房小可.  中国图书馆学报. 2017(04)
[6]大数据下的多源异构知识融合算法研究[J]. 张瑶,李蜀瑜,汤玥.  计算机技术与发展. 2017(09)
[7]基于Hadoop的海量科技信息资源管理系统设计与实现[J]. 蒙杰,杨生举,赵昕晖,赵凡.  科技管理研究. 2017(13)
[8]一种基于深度学习模型的数据融合处理算法[J]. 马永军,薛永浩,刘洋,李亚军.  天津科技大学学报. 2017(04)
[9]“数据—信息—知识”整体视角下的知识融合初探——数据融合、信息融合、知识融合的关联与比较[J]. 祝振媛,李广建.  情报理论与实践. 2017(02)
[10]大数据环境下的知识融合框架研究[J]. 张心源,邱均平.  图书馆学研究. 2016(08)

博士论文
[1]政府网站信息资源多维语义知识融合研究[D]. 黄新平.吉林大学 2017
[2]面向海量数据处理领域的云计算及其关键技术研究[D]. 任崇广.南京理工大学 2013
[3]知识融合中若干关键技术研究[D]. 缑锦.浙江大学 2005

硕士论文
[1]民族教育信息资源服务模型语义化描述及应用研究[D]. 阎宇.云南师范大学 2018
[2]融合知识图谱的实体链接的算法研究[D]. 罗安根.北京邮电大学 2018
[3]面向文本的民族信息资源本体自动构建研究[D]. 肖朝廷.云南师范大学 2017
[4]面向民族信息资源领域的非结构化数据语义关系挖掘[D]. 黄鹏.云南师范大学 2016
[5]大数据环境下异构知识融合方法研究[D]. 汤玥.陕西师范大学 2016
[6]基于少数民族文化的信息技术课程资源本体构建与实现[D]. 张冉.云南师范大学 2016
[7]云环境下少数民族Web信息检索系统的设计与实现[D]. 金学鹏.云南师范大学 2015
[8]基于协同过滤算法的民族文化资源个性化推荐技术研究[D]. 向曦.云南师范大学 2015
[9]德宏州民族文化信息资源管理系统的分析与设计[D]. 陶健.云南大学 2014
[10]云制造环境下海量信息采集技术研究[D]. 申彤彤.内蒙古科技大学 2014



本文编号:3615030

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3615030.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0bcf8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com