基于加权网络的文献聚类与领域研究创新演化

发布时间:2022-07-11 16:15
  随着互联网技术的普遍与发展,世界进入了信息爆炸时代,计算并分析大规模密集型科学数据已成为数据挖掘的新趋势,而文本挖掘作为数据挖掘的主要方面,也已经成为知识发现的新方法。传统的文本信息挖掘方法依赖于大规模的语料库和完备的知识库,增加了文本信息挖掘的难度。近年来,很多学者利用复杂网络表征文本,克服了传统文本信息挖掘方法的缺点。为了更准确的挖掘文本信息,本文以文献为文本基准数据集,基于加权复杂网络从文本的摘要和关键词两方面入手,对文本聚类及领域研究主题的创新演化规律进行研究。首先,从文本摘要入手挖掘文本信息,度量文本之间的语义相似性,从而对文本进行聚类。考虑到文本摘要比较短小,属于短文本范畴,在基于复杂网络的短文本相似性(STSim)度量模型基础上,根据共现理论,进一步考虑摘要中词语的权重信息,提出了一种新的基于加权复杂网络的短文本相似性度量模型用于计算摘要相似性。该模型首先通过词语的共现关系和共现频次构建加权短文本复杂网络,再用改进的节点权重度算法来提高词语共现次数的识别度,从而计算每个词语的加权综合特征值,得到每篇文本摘要的相似性。最后,将文本摘要相似性直接移植到文本对文本进行聚类。文本... 

【文章页数】:50 页

【学位级别】:硕士

【文章目录】:
中文摘要
ABSTRACT
第一章 引言
    1.1 研究背景和意义
    1.2 国内外相关研究综述
        1.2.1 短文本相似性度量的研究现状
        1.2.2 学科主题演化分析的研究现状
    1.3 本文的研究内容
        1.3.1 理论研究
        1.3.2 实验检验
    1.4 本文的结构安排
第二章 理论基础与相关工作
    2.1 复杂网络的重要特征
    2.2 基于复杂网络的短文本相似性度量模型
        2.2.1 文本预处理
        2.2.2 基于复杂网络的短文本相似性度量模型
    2.3 关键词共现网络的创新系数
        2.3.1 关键词共现网络的构建
        2.3.2 测量复杂网络创新度的指标:创新系数
第三章 基于加权网络的文本相似性聚类
    3.1 加权复杂网络构建
    3.2 加权综合特征值计算
    3.3 短文本相似性度量
第四章 基于加权网络的领域研究创新演化
    4.1 加权关键词共现网络的构建
    4.2 定义测量加权网络创新度的指标:加权创新系数
第五章 实验及结果分析
    5.1 基于加权网络的短文本相似性度量模型的聚类检验
        5.1.1 数据来源
        5.1.2 实验过程
        5.1.3 评价指标
        5.1.4 实验结果
    5.2 “人工智能”领域研究创新的演化
        5.2.1 数据来源与基本情况
        5.2.2 创新系数与加权创新系数的对比及创新度分析
        5.2.3 平均加权最近邻度及W-KCNs节点间的连接特性
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士期间取得的研究成果
致谢
个人简况及联系方式



本文编号:3658475

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3658475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2503b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com