层次主题模型在技术演化分析上的应用研究
发布时间:2019-08-27 06:37
【摘要】:[目的 /意义]采用h LDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法 /过程]从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果 /结论]将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。
【图文】:
沤猓囗虼素叫杞鄶匀挥镅源鐚砹煊虻挠?秀成果吸纳进来,以推动专利分析方法的继续发展。3方法本文尝试使用主题来替代领域本体中的概念实体,使用主题层次关系来描述实体间上下位关系并将其应用于技术演化分析,具体来说就是使用hLDA[13]模型自动从专利数据集中抽取出主题树和主题-词汇概率分布并进行时间序列分析。相比经典主题模型LDA(LatentDirichletAllocation)[14]所抽取的平行主题,hLDA所提供的主题树能够挖掘出隐藏于语料库中的语义层次结构,从而使技术演化研究更加深入。本文方法总体框架如图1所示。下面分别对本文的核心环节,即基于术语的关联规则挖掘,使用hLDA生成主题层次树和使用主题层次树进行技术演化分析进行详细说明。图1技术演化分析流程3.1基于术语的关联规则挖掘术语作为专利文献中承担表述功能的基本语义单元,与学术论文中关键词可由数据库直接提供不同,需要研究者从文本中抽龋目前可用的自动化抽取方法较多,诸如基于规则的C-Value、NC-Value方法[15],基于统计的tf-idf方法、卡方方法[16]或由主题模型所扩展的TurboTopic方法等[17],然而在专利文本中这样抽取术语会产生形式多样的同义词,需要将其规范化,为进一步分析打好基矗领域词表方法虽无此问题,但它和领域本体一样需要由专家构建,难以通过快速、低成本和可重复性的方式实现快速迭代,来减少其相对科技发展现状的时滞。本文采用关联规则挖掘方法在抽取术语的基础上进行同义词归并[18-19],具体来说,将专利文档中所抽取的术语作为事务、术语包含词汇作为项,进行闭频繁项集挖掘[20]和关联规则抽龋以专利文献中关于“硬盘磁头”的术语表述为例,存在多种术语诸如hea
陈亮,张静,张海超,等.层次主题模型在技术演化分析上的应用研究[J].图书情报工作,2017,61(5):103-108.图2基于术语的关联规则挖掘以硬盘专业领域为例,分析图2中3个术语的关系:磁头(head)有多种分类,比如薄膜磁头(thinfilmhead)、磁阻磁头(magnetoresistanthead)、铁氧体磁头(ferromagnetichead),因此磁头和薄膜磁头虽然具有语义关联,但作为同义词的可能性较低;另一方面,在薄膜磁头术语中,以thinfilmmagnetichead词频为最高,其余形式还包括thinfilmhead和thinfilmmagneticread、writehead等,在图2中可见,head和thinfilmhead之间的关联规则置信度仅为0.09,而thinfilmhead和thinfilmmagnetichead的关联规则置信度高达0.8,也就是说通过基于闭频繁项集的关联规则挖掘方法,能够将不同术语的结构特征和词频特征结合起来,通过关联规则置信度来度量其语义关系的亲疏。3.2使用hLDA生成主题层次树hLDA是D.Blei等于2004年提出的一种层次主题模型,其概率图模型如图3所示,该模型在生成主题-词汇概率分布的同时,还能够从语料库中提取出隐藏的主题层次树,如图4所示,,其中节点代表主题,连线由父主题指向子主题,语料库中每个文档的主题分布在一条从根主题到叶子主题的路径上(在不引起混淆的情况下,后文简称“路径”)。该模型对随机过程的应用使主题数量的设置完全由训练数据本身决定,从而避免人工设置所带来的主观性和随意性。但hL-DA仍然是一种词袋模型,即它放弃词汇在文档中的语法关系和先后顺序以换取模型的简化和计算复杂度的降低,这种放弃所带来的劣势在包含大量多词术语的专利文本中表现尤其突出,严重影响着主题的可解释性和最终分析效果,因此,笔者将3.1节所获取的规范化术语作为不可拆分单
【作者单位】: 中国科学技术信息研究所;吉林大学管理学院;
【基金】:中国科学技术信息研究所预研基金项目“基于知识图谱的专利技术信息表示方法研究”(项目编号:YY2016-03)研究成果之一
【分类号】:G254
本文编号:2529577
【图文】:
沤猓囗虼素叫杞鄶匀挥镅源鐚砹煊虻挠?秀成果吸纳进来,以推动专利分析方法的继续发展。3方法本文尝试使用主题来替代领域本体中的概念实体,使用主题层次关系来描述实体间上下位关系并将其应用于技术演化分析,具体来说就是使用hLDA[13]模型自动从专利数据集中抽取出主题树和主题-词汇概率分布并进行时间序列分析。相比经典主题模型LDA(LatentDirichletAllocation)[14]所抽取的平行主题,hLDA所提供的主题树能够挖掘出隐藏于语料库中的语义层次结构,从而使技术演化研究更加深入。本文方法总体框架如图1所示。下面分别对本文的核心环节,即基于术语的关联规则挖掘,使用hLDA生成主题层次树和使用主题层次树进行技术演化分析进行详细说明。图1技术演化分析流程3.1基于术语的关联规则挖掘术语作为专利文献中承担表述功能的基本语义单元,与学术论文中关键词可由数据库直接提供不同,需要研究者从文本中抽龋目前可用的自动化抽取方法较多,诸如基于规则的C-Value、NC-Value方法[15],基于统计的tf-idf方法、卡方方法[16]或由主题模型所扩展的TurboTopic方法等[17],然而在专利文本中这样抽取术语会产生形式多样的同义词,需要将其规范化,为进一步分析打好基矗领域词表方法虽无此问题,但它和领域本体一样需要由专家构建,难以通过快速、低成本和可重复性的方式实现快速迭代,来减少其相对科技发展现状的时滞。本文采用关联规则挖掘方法在抽取术语的基础上进行同义词归并[18-19],具体来说,将专利文档中所抽取的术语作为事务、术语包含词汇作为项,进行闭频繁项集挖掘[20]和关联规则抽龋以专利文献中关于“硬盘磁头”的术语表述为例,存在多种术语诸如hea
陈亮,张静,张海超,等.层次主题模型在技术演化分析上的应用研究[J].图书情报工作,2017,61(5):103-108.图2基于术语的关联规则挖掘以硬盘专业领域为例,分析图2中3个术语的关系:磁头(head)有多种分类,比如薄膜磁头(thinfilmhead)、磁阻磁头(magnetoresistanthead)、铁氧体磁头(ferromagnetichead),因此磁头和薄膜磁头虽然具有语义关联,但作为同义词的可能性较低;另一方面,在薄膜磁头术语中,以thinfilmmagnetichead词频为最高,其余形式还包括thinfilmhead和thinfilmmagneticread、writehead等,在图2中可见,head和thinfilmhead之间的关联规则置信度仅为0.09,而thinfilmhead和thinfilmmagnetichead的关联规则置信度高达0.8,也就是说通过基于闭频繁项集的关联规则挖掘方法,能够将不同术语的结构特征和词频特征结合起来,通过关联规则置信度来度量其语义关系的亲疏。3.2使用hLDA生成主题层次树hLDA是D.Blei等于2004年提出的一种层次主题模型,其概率图模型如图3所示,该模型在生成主题-词汇概率分布的同时,还能够从语料库中提取出隐藏的主题层次树,如图4所示,,其中节点代表主题,连线由父主题指向子主题,语料库中每个文档的主题分布在一条从根主题到叶子主题的路径上(在不引起混淆的情况下,后文简称“路径”)。该模型对随机过程的应用使主题数量的设置完全由训练数据本身决定,从而避免人工设置所带来的主观性和随意性。但hL-DA仍然是一种词袋模型,即它放弃词汇在文档中的语法关系和先后顺序以换取模型的简化和计算复杂度的降低,这种放弃所带来的劣势在包含大量多词术语的专利文本中表现尤其突出,严重影响着主题的可解释性和最终分析效果,因此,笔者将3.1节所获取的规范化术语作为不可拆分单
【作者单位】: 中国科学技术信息研究所;吉林大学管理学院;
【基金】:中国科学技术信息研究所预研基金项目“基于知识图谱的专利技术信息表示方法研究”(项目编号:YY2016-03)研究成果之一
【分类号】:G254
【相似文献】
相关期刊论文 前2条
1 李莉;武邦涛;谭晓燕;;科研论文合著网络结构及其演化[J];系统管理学报;2014年03期
2 ;[J];;年期
本文编号:2529577
本文链接:https://www.wllwen.com/tushudanganlunwen/2529577.html