基于图书的概念上下位关系和多侧面定义的抽取
本文关键词:基于图书的概念上下位关系和多侧面定义的抽取
更多相关文章: 上下位关系 多侧面定义 分类体系 知识库 数字图书馆
【摘要】:近年来,知识库在信息检索、文本理解等方面显得越发至关重要,但是如何为任意领域构建一个大规模知识库仍是一件非常有挑战性的工作。幸运的是,已有大量的图书在数字图书馆中被数字化,比如,CADAL数字图书馆近十年来已经数字化了260多万册图书,这些图书中蕴含着大量的知识。如果我们可以直接从大量的图书中学习出概念间的上下位关系和概念的定义,这将会对知识库构建产生很大的帮助。 在本文中,我们提出了一种基于图书构建知识库的方法,能从大量的图书中分析挖掘出概念的分类体系以及多侧面定义。分类体系主要基于图书目录关系从中抽取出的上下位关系和并列关系,通过概念验证、条件过滤以及排序等步骤来构建。多侧面定义则是:首先通过基于图书目录的搜索引擎从图书中抽取出候选定义,然后再对候选定义进行聚类和排序以找出多侧面定义。 通过上述方法,我们可以完全基于数字图书馆中海量的图书来构建知识库。该方法在CADAL数字图书馆的百万册图书中进行了实践,实验结果表明我们的方法是行之有效的。
【关键词】:上下位关系 多侧面定义 分类体系 知识库 数字图书馆
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-11
- 第1章 绪论11-16
- 1.1 课题背景11-14
- 1.2 本文组织结构14-15
- 1.3 本章小结15-16
- 第2章 国内外研究现状16-27
- 2.1 现有的上下位关系抽取的方法16-22
- 2.1.1 基于模式的方法16-19
- 2.1.2 基于分布特征的方法19
- 2.1.3 基于半结构化或者结构化内容的方法19-21
- 2.1.4 基于异构证据的集成的方法21
- 2.1.5 基于众包的方法21-22
- 2.2 现有的定义抽取的方法22-23
- 2.2.1 基于模式的方法23
- 2.2.2 基于机器学习的方法23
- 2.3 自然语言处理工具23-24
- 2.3.1 FudanNLP23-24
- 2.4 知识图谱上的聚类算法24-25
- 2.4.1 AP聚类24-25
- 2.5 对知识图谱的存储25-26
- 2.5.1 图数据库Neo4j25-26
- 2.6 本章小结26-27
- 第3章 基于图书目录抽取概念的上下位关系27-42
- 3.1 基于图书目录构建知识图谱的概述27-28
- 3.2 知识图谱中概念的生成28-34
- 3.2.1 对章节名处理产生候选概念28-34
- 3.3 利用并列关系对上下位关系进行增量补充34-39
- 3.3.1 强弱并列关系的区分34-35
- 3.3.2 知识节点间相关度35-36
- 3.3.3 利用并列关系进行补充36-39
- 3.4 利用目录子结构对上下位关系进行增量补充39
- 3.5 对知识图谱中的上下位关系进行清洗合并39-40
- 3.6 使用图数据库Neo4j进行存储并提供对外服务40-41
- 3.7 本章小结41-42
- 第4章 基于图书的抽取概念的多侧面定义42-47
- 4.1 概念定义的概述42-43
- 4.2 定义性句子的抽取43-44
- 4.3 对候选定义进行聚类并产生多侧面的定义44-46
- 4.3.1 对候选定义进行特征抽取和相似度的计算44-46
- 4.4 本章小结46-47
- 第5章 实验47-56
- 5.1 数据集的分布情况47-48
- 5.2 分类体系构建的评估48-52
- 5.3 定义抽取的评估52-55
- 5.4 本章小结55-56
- 第6章 总结与展望56-57
- 6.1 总结56
- 6.2 展望56-57
- 参考文献57-62
- 攻读硕士学位期间主要的研究成果62-63
- 致谢63-64
- 作者简历64
【相似文献】
中国期刊全文数据库 前10条
1 邱莉榕;翁_g;赵小兵;;藏文语义本体中的上下位关系模式匹配算法[J];中文信息学报;2011年04期
2 王盛;樊兴华;陈现麟;;利用上下位关系的中文短文本分类[J];计算机应用;2010年03期
3 王迎春;蔡东风;叶娜;;基于实体-属性框架的领域知识库构建[J];沈阳航空航天大学学报;2011年02期
4 张巍;于洋;游宏梁;;面向词汇知识库自动构建的概念术语关系识别[J];现代图书情报技术;2009年11期
5 刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期
6 李宝敏;张娜;;语义智能检索在果品领域的应用[J];西安工业大学学报;2008年03期
7 刘磊;曹存根;张春霞;田国刚;;概念空间中上下位关系的意义识别研究[J];计算机学报;2009年08期
8 周明鉴;来函照登[J];编辑学刊;2001年05期
9 陈杰;蒋祖华;;领域本体的概念相似度计算[J];计算机工程与应用;2006年33期
10 张娜;张星;;基于本体的语义智能检索系统研究[J];平顶山工学院学报;2007年05期
中国重要会议论文全文数据库 前10条
1 胡永伟;穗志方;李奇;;小规模语料中术语概念关系的提取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 李姣;朱小燕;;生物文献的本体建模及其在语义查询中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
4 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 马永腾;亢世勇;;新编同义词词林语义分类体系[A];第三届学生计算语言学研讨会论文集[C];2006年
6 赵磊;阎艳;王锋;;基于本体的坦克装甲车辆工艺知识库的建立[A];先进制造技术高层论坛暨第六届制造业自动化与信息化技术研讨会论文集[C];2007年
7 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
9 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 廖光忠;黄泽鑫;;基于HowNet语义算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 黄楠森;怎样认识毛泽东关于“自由”的定义[N];北京日报;2002年
2 人行宜春市中心支行 丁朝晖;“其他组织”的定义做出司法解释[N];金融时报;2001年
3 记者 高原;谁来定义恐怖主义[N];新华每日电讯;2002年
4 林樱;概念的定义和语言的科学性[N];云南经济日报;2002年
5 江苏兴化市大垛镇板桥高级中学 汤晓夏 江苏宜兴市外国语学校 蒋玉娟;“健康”定义新解[N];中国体育报;2002年
6 海海龙;定义品牌的竞争性框架[N];中国机电日报;2002年
7 乔哲;定义信息高效管理[N];国际商报;2001年
8 冯青;“金字塔”定义利润等级[N];中华建筑报;2002年
9 邓力;掰一掰“统计”这个词[N];中国信息报;2010年
10 本报记者 甘霖来;IBM定义服务器的未来[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 李庭波;森林资源经营决策本体知识库技术研究及应用[D];福建农林大学;2009年
2 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
3 买琳燕;从歌德到索尔·贝娄的成长小说研究[D];吉林大学;2008年
4 叶芳;改进德尔菲(Delphi)法研究亚健康的描述性定义及评价标准[D];中国协和医科大学;2008年
5 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
6 邵军航;委婉语研究[D];上海外国语大学;2007年
7 侯荣国;复合式长寿命路面结构研究[D];长安大学;2008年
8 张奇;细颗粒度情感倾向分析若干关键问题研究[D];复旦大学;2008年
9 牟冬梅;数字图书馆知识组织语义互联策略及其应用研究[D];吉林大学;2009年
10 姬伟;面向业务的空间信息服务应用开发体系链[D];中国地质大学;2010年
中国硕士学位论文全文数据库 前10条
1 张萌;基于图书的概念上下位关系和多侧面定义的抽取[D];浙江大学;2014年
2 蒋年树;领域本体概念上下位关系的抽取及组织研究[D];昆明理工大学;2013年
3 王海雄;领域本体中的术语和上下位、同位关系抽取的研究[D];昆明理工大学;2011年
4 汤青;本体概念及概念间关系抽取方法研究[D];北京信息科技大学;2013年
5 潘俊峰;面向开放域信息抽取的关系知识库建立[D];上海交通大学;2013年
6 董润芝;文本中场景识别的研究与分析[D];哈尔滨工业大学;2010年
7 张元发;基于本体的船舶领域知识获取研究[D];大连海事大学;2010年
8 王俊华;基于文本的半监督领域本体构建[D];吉林大学;2010年
9 王旭刚;业务流程本体知识库的研究与设计[D];山东大学;2011年
10 王迎春;基于实体—属性框架的航空领域知识库的构建及应用[D];沈阳航空航天大学;2011年
,本文编号:1132630
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1132630.html