主题漂移监测方法研究
发布时间:2020-07-17 03:59
【摘要】:目前,科学发展日新月异,某个学科领域的突破会对其它领域产生巨大的影响,国家、研究所对科研的战略选择也会受到学科之间关系的影响。为科学研究提供研究领域内的科技热点、前沿、发展趋势、知识结构及发展变化过程等更加专业、深层次的情报服务还存在不足。科技文献作为科学知识的载体,不仅能够呈现最新的科研成果、研究热点和知识水平,还蕴藏着大量表征科学知识活动基本性状的信息。因此,解决上述问题,需要对一定时期内文献主题挖掘,以揭示出领域内知识主题发生变化的过程。 本研究按照文献调研、分析思考、理论研究、技术研究和实践验证的思路,首先对主题漂移的概念进行了界定,明确了本文研究的主要问题;继而采用综合分析的方法,通过相关基础理论的分析与讨论,给出了两种漂移形式和两种漂移方向,同时进一步提出了漂移监测指标;然后,基于主题识别、主题追踪等国内外相关技术,针对漂移监测指标提出了监测主题漂移的技术方法和监测流程;最后,根据综合分析和技术方法的研究成果,选择斑马鱼基因遗传领域进行了实验与验证。主题漂移监测方法研究本质上是研究主题的变化过程及变化规律,以满足相关科研人员的情报需求。主题的变化通过主题与主题之间的关系来体现,主题变化的时间点与当时领域内重要的科技活动密切相关。主题间关系以及主题变化的时间是本文研究主题漂移监测方法的两个重要指标。主题漂移监测方法研究的目的是发现学科领域内核心主题以及核心主题的变化,从而为领域科研人员提供深层次的情报服务。在本文的研究中,从全局视角对领域内的核心主题变迁进行识别,从局部视角对典型主题的漂移进行分析,以达到监测领域知识主题漂移的目的。 通过本文研究,得出了斑马鱼基因遗传领域的主题漂移结果,从全局视角和局部视角两个方法进行描述。全局视角描绘出该领域2003年-2012年十年间的发展脉络;局部视角聚焦GENOME和STEM-CELL两个典型主题,度量出主题与主题之间的漂移速度,并通过漂移速度值的大小划分出渐变式主题漂移和突变式主题漂移的两种漂移形式。结果明确,方法可行,理论符合实际。希望本文的研究能够为相关的学者和科研人员提供理论上和技术上的借鉴。
【学位授予单位】:中国农业科学院
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:G350
【图文】:
中国农业科学院硕士学位论文 第二章 主题漂移的基础理论与方法2.2.4 时间窗和时间线技术S-ATM(Segmented Author-Topic Model)模型在传统的 ATM 模型的基础上收集文献时考虑了时间因素,时间片 tk = t0 + k△ t,t0 表示初始时间点,△ t 是时间片的大小(即时间跨度),k=[0,…n表示第 k 个时间分割。在 S-ATM 初始指定文档 d 和其作者 ad,每一个主题都用多个关键词来表示,和与之相对应的多个作者,随着时间的推移,可以揭示出一个主题的关键词的改变和作者的变化。ATTention(Authors and Topics in the Temporal context)用于分析随着时间的推移文本内容发生变化时用户兴趣随之发生改变的过程。它也是基于 LDA 模型的扩展,进一步分为 5 个具体模块:监测主题随时间改变模块,形成主题簇模块,作者—主题模块,主题追踪模块和用户兴趣追踪模块。在 ATTention 模型中,有三个重要的参数:θ 表示作者与主题关系;φ 表示主题与关键词的关系;ψ 表示主题随时间的变化关系。时间以连续的自然年份为单位,将以上三个参数绘制在二维的坐标轴里,根据主题随时间的起伏变化和峰谷变化来分析作者和相应关键词的改变。
图 2 TTM 模型中时间线技术Figure 2 The time line technique in the TTM modelyashi and Raylene Yung 在研究分析 2006 年出现的大量发明(Innov和追踪方面加入了多时间线重叠技术(overlapping)来发现核心主题Yung 研 究 的 主 题 识 别 和 追 踪 系 统 用 VSM 进 行 主 题表 示rse document frequency)进行词汇的权重计算和余弦公式进行主题相大量文献按时间排序,将时间按不同的窗口大小划分成多个时间线上的文献。对时间窗内的文献进行主题聚类,位于相重叠的两个时踪分析,即可实现主题追踪。
图 2 TTM 模型中时间线技术Figure 2 The time line technique in the TTM modelMei Kobayashi and Raylene Yung 在研究分析 2006 年出现的大量发明(Innovation Jam)题的识别和追踪方面加入了多时间线重叠技术(overlapping)来发现核心主题。Mei KobRaylene Yung 研 究 的 主 题 识 别 和 追 踪 系 统 用 VSM 进 行 主 题表 示 , TF-IDency-inverse document frequency)进行词汇的权重计算和余弦公式进行主题相似度的计收集到的大量文献按时间排序,将时间按不同的窗口大小划分成多个时间线,时间窗内数千篇以上的文献。对时间窗内的文献进行主题聚类,位于相重叠的两个时间窗的重叠题进行追踪分析,即可实现主题追踪。
本文编号:2758948
【学位授予单位】:中国农业科学院
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:G350
【图文】:
中国农业科学院硕士学位论文 第二章 主题漂移的基础理论与方法2.2.4 时间窗和时间线技术S-ATM(Segmented Author-Topic Model)模型在传统的 ATM 模型的基础上收集文献时考虑了时间因素,时间片 tk = t0 + k△ t,t0 表示初始时间点,△ t 是时间片的大小(即时间跨度),k=[0,…n表示第 k 个时间分割。在 S-ATM 初始指定文档 d 和其作者 ad,每一个主题都用多个关键词来表示,和与之相对应的多个作者,随着时间的推移,可以揭示出一个主题的关键词的改变和作者的变化。ATTention(Authors and Topics in the Temporal context)用于分析随着时间的推移文本内容发生变化时用户兴趣随之发生改变的过程。它也是基于 LDA 模型的扩展,进一步分为 5 个具体模块:监测主题随时间改变模块,形成主题簇模块,作者—主题模块,主题追踪模块和用户兴趣追踪模块。在 ATTention 模型中,有三个重要的参数:θ 表示作者与主题关系;φ 表示主题与关键词的关系;ψ 表示主题随时间的变化关系。时间以连续的自然年份为单位,将以上三个参数绘制在二维的坐标轴里,根据主题随时间的起伏变化和峰谷变化来分析作者和相应关键词的改变。
图 2 TTM 模型中时间线技术Figure 2 The time line technique in the TTM modelyashi and Raylene Yung 在研究分析 2006 年出现的大量发明(Innov和追踪方面加入了多时间线重叠技术(overlapping)来发现核心主题Yung 研 究 的 主 题 识 别 和 追 踪 系 统 用 VSM 进 行 主 题表 示rse document frequency)进行词汇的权重计算和余弦公式进行主题相大量文献按时间排序,将时间按不同的窗口大小划分成多个时间线上的文献。对时间窗内的文献进行主题聚类,位于相重叠的两个时踪分析,即可实现主题追踪。
图 2 TTM 模型中时间线技术Figure 2 The time line technique in the TTM modelMei Kobayashi and Raylene Yung 在研究分析 2006 年出现的大量发明(Innovation Jam)题的识别和追踪方面加入了多时间线重叠技术(overlapping)来发现核心主题。Mei KobRaylene Yung 研 究 的 主 题 识 别 和 追 踪 系 统 用 VSM 进 行 主 题表 示 , TF-IDency-inverse document frequency)进行词汇的权重计算和余弦公式进行主题相似度的计收集到的大量文献按时间排序,将时间按不同的窗口大小划分成多个时间线,时间窗内数千篇以上的文献。对时间窗内的文献进行主题聚类,位于相重叠的两个时间窗的重叠题进行追踪分析,即可实现主题追踪。
【参考文献】
相关期刊论文 前2条
1 王琦,席酉民,汪莹;和谐主题漂移的涵义及其过程描述[J];管理科学;2004年06期
2 王嵩;李保珍;代逸生;;基于贝叶斯层级模型的社会化标注主题聚类探讨[J];情报理论与实践;2011年08期
本文编号:2758948
本文链接:https://www.wllwen.com/tushudanganlunwen/2758948.html
教材专著