基于领域概念体系的学术论文主题提取
发布时间:2017-07-29 20:30
本文关键词:基于领域概念体系的学术论文主题提取
更多相关文章: 都柏林核元数据集 领域概念体系 领域词典 术语共现 术语关系提取 篇章特征分析 主题提取 主题结构
【摘要】: 本文通过对人类认知模型的分析,提出了学术论文的主题提取系统模型。该系统模型分为构建领域概念体系和主题提取二个模块,构建领域概念体系的目的是使计算机具备领域知识,主题提取是使计算机能分析论文并提取主题。为了构建领域概念体系,本文探讨了建立领域词典和基于术语共现的术语关系提取相结合的途径,提出了基于术语共现的术语关系提取算法。通过分析论文中术语的共现关系,借用向量空间模型(VSM)理论和潜在语义分析(LSA)理论,用以表示和改良术语关系矩阵。并提出了三种关系提取算法。为改良提取结果,本课题还提出了二次关系提取算法。实验证明了这些算法的有效性。随后本文通过模仿人类对论文主题的提取过程,提出了基于篇章特征分析的主题结构提取算法。实验证明了该算法比单纯的基于词频统计的提取算法更有效。
【关键词】:都柏林核元数据集 领域概念体系 领域词典 术语共现 术语关系提取 篇章特征分析 主题提取 主题结构
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
- 摘要10-11
- ABSTRACT11-12
- 第1章 绪论12-18
- 1.1 课题背景12-16
- 1.1.1 都柏林核元数据12-13
- 1.1.2 信息提取13-14
- 1.1.3 语义web与领域本体14-15
- 1.1.4 语言知识库15-16
- 1.2 课题研究目的、内容和主要工作16-17
- 1.2.1 课题的主要工作16-17
- 1.3 文章结构17-18
- 第2章 学术论文和都柏林核元数据18-28
- 2.1 学术论文及其特点18-22
- 2.1.1 学术论文及其分类18
- 2.1.2 学术论文的特征18-19
- 2.1.3 学术论文的结构分析19-20
- 2.1.4 学术论文中的词频20-22
- 2.2 学术论文的都柏林核元数据22-26
- 2.3 小结26-28
- 第3章 学术论文主题提取系统模型28-42
- 3.1 系统模型的相关概念28-30
- 3.1.1 概念、术语和字词短语28-29
- 3.1.2 主题、主题词和主题结构29-30
- 3.2 系统模型设计30-31
- 3.3 领域概念体系31-35
- 3.3.1 领域概念体系的结构31-33
- 3.3.2 领域概念体系的术语关系33-34
- 3.3.3 领域概念体系的构建34-35
- 3.4 领域词典35-41
- 3.4.1 WordNet、HowNet和领域本体MeSH35-38
- 3.4.2 领域词典的结构38-41
- 3.5 小结41-42
- 第4章 基于术语共现的术语关系提取算法42-62
- 4.1 术语关系提取流程42-43
- 4.2 文档的特征向量描述43-50
- 4.2.1 向量空间模型43-44
- 4.2.2 Item-Term矩阵和Term-Term关系矩阵44-47
- 4.2.3 Term-Term关系矩阵改良47-50
- 4.2.3.1 潜在语义分析47-50
- 4.2.3.2 改良关系矩阵50
- 4.3 术语关系提取算法50-55
- 4.3.1 全关联关系提取算法51-52
- 4.3.2 单关联关系提取算法52-53
- 4.3.3 部分关联关系提取算法53-54
- 4.3.4 二次关系提取算法54-55
- 4.4 算法试验与评估55-61
- 4.4.1 试验数据55-57
- 4.4.2 关系提取结果分析57-59
- 4.4.2.1 全关联关系提取结果分析57-58
- 4.4.2.2 单关联关系提取结果分析58
- 4.4.2.3 部分关联关系提取结果分析58
- 4.4.2.4 结果比较分析58-59
- 4.4.3 二次关系提取结果分析59-61
- 4.4.4 试验结论61
- 4.5 小结61-62
- 第5章 基于篇章特征分析的主题结构提取算法62-76
- 5.1 主题结构提取流程62-63
- 5.2 术语选取63-71
- 5.2.1 文档预处理63-64
- 5.2.2 分词与句法分析64-71
- 5.3 计算术语重要度71-73
- 5.4 生成主题结构73-74
- 5.5 实验分析与评估74-75
- 5.6 小结75-76
- 第6章 结束语76-78
- 6.1 工作总结76
- 6.2 主要创新点76-77
- 6.3 研究展望77-78
- 致谢78-79
- 参考文献79-84
- 附录 攻读硕士期间发表的论文84
【参考文献】
中国期刊全文数据库 前7条
1 褚振莉;英汉语言与文章主题句的相关性[J];成都教育学院学报;2005年07期
2 林鸿飞,姚天顺;基于潜在语义索引的文本浏览机制[J];中文信息学报;2000年05期
3 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期
4 俞士汶;网上的基础语言信息资源[J];术语标准化与信息技术;2001年04期
5 托马斯·贝克;夏翠娟;刘炜;;DC词表的维护:实践、策略与模型[J];图书馆杂志;2004年05期
6 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
7 董振东,董强;面向信息处理的词汇语义研究中的若干问题[J];语言文字应用;2001年03期
,本文编号:590999
本文链接:https://www.wllwen.com/wenshubaike/lwzy/590999.html