基于语义的文献关键字提取技术的研究

发布时间:2023-04-27 21:07
  随着信息技术的不断发展,快速增长的数据涌现在人们眼前,各式各样的信息充斥在生活的各个角落。因此,如何准确地从众多数据信息中获取到真正有意义的关键部分已成为研究的技术热点。目前的关键字提取算法中大部分是基于词频和词长的研究,也有基于语义和词汇链的研究。在基于词频和词长的关键字提取中依赖词的长度,长度较长的分词更容易成为关键字,但对于一些特殊情况却适用性不强,同时没有加入词在全文中的语义信息;基于语义的研究忽略了词本身的词长等基本属性,同时时间开销较大,不能够准确高效地提取到文献关键字信息。在准确性和效率之间的兼容性较差。本文也正是基于以上问题进行的研究。关键字反应的是文章的主旨信息和核心概念。在阅读和检索查找等方面,精准的关键字信息能够给读者带来极大的便利。所以在关键字的提取技术上,也有着不断地改进和优化。其中基于语义的提取算法通过消歧和语义分析能得到词语在文章中更真实的含义和意图。本文通过与传统的TF-IDF和KEA等经典算法的研究比较,提出了一种基于语义的GSW(Group character tree,Semantic similarity and Word-length prio...

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 国内外研究现状
        1.2.1 国内研究现状
        1.2.2 国外研究现状
    1.3 主要工作及研究意义
        1.3.1 主要工作
        1.3.2 研究意义
    1.4 论文结构
第2章 相关算法与技术
    2.1 中文分词优化技术
        2.1.1 基于词典存储的分词优化
        2.1.2 基于字符串匹配的分词优化
    2.2 关键字提取算法
        2.2.1 TF-IDF
        2.2.2 基于词长改进的TF-IDF算法
        2.2.3 KEA算法
        2.2.4 基于语义的关键字提取算法
    2.3 数据分析工具
第3章 GSW算法
    3.1 相关工作
    3.2 GCT分词法
        3.2.1 字符树和trie索引树
        3.2.2 分组字符树原理和GCT算法
        3.2.3 性能比较
    3.3 SDBT消歧算法
        3.3.1 同义词词林和语义距离
        3.3.2 基于语义距离—B+树的消歧算法
        3.3.3 实验评估
    3.4 WPR-TOC关键字提取算法
        3.4.1 候选词合并
        3.4.2 朴素贝叶斯算法和特征选取
        3.4.3 词长优先比原理
        3.4.4 WPR-TOC算法
    3.5 本章小结
第4章 系统实现和性能测试
    4.1 基于语义的关键字提取的意义
    4.2 系统概述
        4.2.1 系统实现
        4.2.2 处理流程
    4.3 性能测试
        4.3.1 实验数据和开发平台
        4.3.2 实验设计
    4.4 结果分析
    4.5 本章小结
第5章 总结与展望
    5.1 论文总结
    5.2 工作展望
参考文献
作者简介及在学期间所取得的科研成果
致谢



本文编号:3803066

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3803066.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05717***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com