共现分析在文本知识挖掘中的应用研究
发布时间:2020-10-31 18:35
随着各种文本数据源的激增和用户对知识内容深层挖掘的需求,文本知识挖掘的研究正在兴起。由于文本具有区别于一般数据库信息资源的半结构化特性,计算机很难理解和处理,必须利用与传统数据挖掘方法相异、有针对性的分析方法以获得对文献内容的全面而深入的理解。因此,探讨共现分析的理论及其在文本知识挖掘中的具体应用有着极其重要的理论和实践意义。 首先,本文论述了文本知识挖掘的定义、一般过程、主要任务、基本方法和主要研究课题。并从理论上深入探讨了共现分析方法,系统地总结了该方法的定义、类型、方法论基础及一般研究流程。在此基础上,提出了共现分析将对文本知识挖掘所起的三方面作用:为文本知识挖掘的一般处理过程提供语义支持、从词汇关联角度发现有趣的知识模式、作为挖掘文本知识的有效手段;然后,从作为文本知识挖掘有效手段的角度出发,本文研究了共现分析在基于空间分布、时间分布和内外关联映射的文本知识挖掘中应用的思路和典型案例;提出了利用共现分析挖掘文本知识的适用范围及一般操作流程,并对操作流程中影响分析结果的主要问题进行了深入分析;再次,以上述研究成果为方法论,以相关期刊论文中“航空发动机”(2001—2005年)类目下的1273篇学术期刊为实例,进行了文本知识挖掘的应用探索。经研究发现:在空间分布上,航空发动机领域的研究主要集中在燃烧系统、控制、压气机、喷管、涡轮几大知识热点,其中燃烧系统始终处于该领域的核心;在时间分布上,通过五年的分析数据比较得知,除燃烧系统之外的其它研究问题通过拓宽研究范畴、增强研究深度,都有向领域中心靠近的趋势。另外,航空发动机领域的知识结构相对固定,在短期时间内不太可能发生太大的变化,可能出现的是研究侧重点的微调;最后,本文总结了利用共现分析挖掘文本知识的新趋势,并指出了发展的方向。
【学位单位】:南京理工大学
【学位级别】:硕士
【学位年份】:2006
【中图分类】:G353.1
【部分图文】:
图1.2..22不同类别文献篇数与年份的关系图从图中可以很明显地观察出国内研究人员的研究重点:对共现分析的应用研究。可以将主要的研究成果做如下归纳。中国医科大学医学系的崔雷教授自1995年开始,陆续发表了一系列利用共现析分析医学文献的学科结构、追踪研究热点的文章,主要包括《专题文献高被引论的时间分布与同被引聚类分析》、《专题文献高频主题词的共词聚类分析》、《关于MEDLNIE数据库中进行知识抽取和挖掘的研究进展》、《文献计量学共引分析系统设计与开发》、《生物信息学的共词分析研究》、《运用共词聚类分析法研究生物信息的学科热点》、《有关分子生物学的知识发现研究进展》、《医学信息存储与检索研究点的共词聚类分析》等。从这一系列文献中可以明显地看出崔雷教授探讨这一问题思路:从引入该分析方法到选择研究对象加以简单应用,再到将该方法作为医药领知识发现的重要工具,始终从如何有效利用共现分析这一应用角度上,逐级深入、断扩展研究的深度和广度13’韶l。较早开始对共现分析进行研究的还有国家汉语水平考试委员会办公室的柴省在1997年发表的《内容词一共引聚类分析及其在科学结构研究中的应用》,该文在
为进一步细化信息检索领域的知识构成,深入理解各类内部的知识结构,作者再次深入这5个大类的具体内容,利用多元标度技术分别进行分析。其中对Clusetrl的分析结果如图.42.1.6所示。该思路由于实现方法易于理解、可以借助现有软件进行分析等优点,成为基于空间文本知识关联研究的主流方法。除YingDing外,Drexel大学的TheodoreAllanMorriS基于该思路对医药情报学的学科结构进行了考察[’7],Royalsehool。fLibra仃andnIofmrationSceince的IerneW6rmen等对福利理论的发展和在现代福利国家中福
图4.2.3.1燃料领域的主要研究机构映射图方式可以将作者的网络关联展现出来。作者网络关联的典型示,其中存在孤立作者(IA)和作者团队(Temas),以及连接不作者(Li吐)。
【引证文献】
本文编号:2864341
【学位单位】:南京理工大学
【学位级别】:硕士
【学位年份】:2006
【中图分类】:G353.1
【部分图文】:
图1.2..22不同类别文献篇数与年份的关系图从图中可以很明显地观察出国内研究人员的研究重点:对共现分析的应用研究。可以将主要的研究成果做如下归纳。中国医科大学医学系的崔雷教授自1995年开始,陆续发表了一系列利用共现析分析医学文献的学科结构、追踪研究热点的文章,主要包括《专题文献高被引论的时间分布与同被引聚类分析》、《专题文献高频主题词的共词聚类分析》、《关于MEDLNIE数据库中进行知识抽取和挖掘的研究进展》、《文献计量学共引分析系统设计与开发》、《生物信息学的共词分析研究》、《运用共词聚类分析法研究生物信息的学科热点》、《有关分子生物学的知识发现研究进展》、《医学信息存储与检索研究点的共词聚类分析》等。从这一系列文献中可以明显地看出崔雷教授探讨这一问题思路:从引入该分析方法到选择研究对象加以简单应用,再到将该方法作为医药领知识发现的重要工具,始终从如何有效利用共现分析这一应用角度上,逐级深入、断扩展研究的深度和广度13’韶l。较早开始对共现分析进行研究的还有国家汉语水平考试委员会办公室的柴省在1997年发表的《内容词一共引聚类分析及其在科学结构研究中的应用》,该文在
为进一步细化信息检索领域的知识构成,深入理解各类内部的知识结构,作者再次深入这5个大类的具体内容,利用多元标度技术分别进行分析。其中对Clusetrl的分析结果如图.42.1.6所示。该思路由于实现方法易于理解、可以借助现有软件进行分析等优点,成为基于空间文本知识关联研究的主流方法。除YingDing外,Drexel大学的TheodoreAllanMorriS基于该思路对医药情报学的学科结构进行了考察[’7],Royalsehool。fLibra仃andnIofmrationSceince的IerneW6rmen等对福利理论的发展和在现代福利国家中福
图4.2.3.1燃料领域的主要研究机构映射图方式可以将作者的网络关联展现出来。作者网络关联的典型示,其中存在孤立作者(IA)和作者团队(Temas),以及连接不作者(Li吐)。
【引证文献】
相关硕士学位论文 前2条
1 卢宁;面向知识发现的知识关联揭示及其应用研究[D];南京理工大学;2007年
2 阚洳沂;基于词语网络的关键字提取策略研究[D];西南大学;2008年
本文编号:2864341
本文链接:https://www.wllwen.com/tushudanganlunwen/2864341.html