基于LDA2vec模型的多源数据下科研热点识别研究

发布时间：2020-06-27 20:38

【摘要】：信息过载是当前互联网信息时代值得关注的一大问题,从海量信息中快速抽取、提炼出关键的信息就显得尤为重要。而科技文献作为科技创新知识的主要载体不仅增长迅速,且具有多源分布的特点,如图书、论文、专利与会议文献等作为主要的科技文献,其不同类型的特点使得它们提供了关于同一主题不同角度的描述。所以在科学研究中,从不同源的科技文献中识别挖掘科研热点对于开展下一步的科研工作具有指导意义。所以本文目的就是通过本研究提出的模型方法,对蕴含在多源文本中的主题进行更有效的识别以分析学科热点,为科研创新提供支撑服务。本研究首先采用文献调研法,辨析了科研热点和科研主题概念的基础上,对国内外科研热点识别的主要方法和主题模型的研究进展进行调研,针对具有代表性的研究成果进行总结与述评,梳理了当前进行科研热点识别分析时的专家法、引文分析法、知识单元分析法、图谱分析法和文本挖掘法五种方法,并对主题模型的理论探索现状和其在科研热点识别中的应用研究现状进行了总结。然后在此基础上基于模型研究法,提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合了LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。同时为了验证本文方法的有效性,利用实验分析法、统计分析法等,以机器学习领域的科技文献为例,获取期刊论文和专利文献的题名及摘要数据进行融合以作为实验数据源,一方面利用模型困惑度(perplexity)和主题一致性(topic coherence)两个指标对LDA2vec与LDA在多源文本背景下的主题提取效果进行对比,另一方面对本研究的方法在多数据源和单一数据源的环境下主题提取效果进行观察对比。经过实验,结果表明本文提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的且在一定程度上有效果的提升。该方法相对来说能够更加合理、准确地识别出多数据源文本中的热点内容,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。
【学位授予单位】：南京大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：G353.1
【图文】：

成果统计,论文

以ＷＯＳ数据库的内容为例，检索主题为ｒｅｓｅａｒｃ／？逦■的研宄文献，对国逡逑外关于科研热点识别方面的研宄做一个整体的统计分析。结果如图２－１所示。逡逑国外科研热点论文成果统计逡逑１０００逡逑８００邋－＾－６３３逡逑６００逡逑４００逡逑２００逦一＾邋．＾－＾]牐掊义辖丁鲒苟且菏垮胏涆住ⅲ孔蠓③浊鸹ば砼义希襄濉澹垮澹卞澹悖蓿澹剩驽澹蹋襄澹沐澹簦澹茫襄澹茫ュ澹襄濉у危

本文编号：2732073

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/2732073.html

上一篇：基于Web的中国化学文献检索系统设计与实现
下一篇：吴均诗文集校释

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|