专利热点挖掘方法研究
发布时间:2020-10-18 06:07
随着社会的不断进步,各领域的科技创新取得了空前的成果,大量专利文献也随着这些新技术产生和积累,专利文本的挖掘工作逐渐成为对技术发展的决策制定举足轻重的必要工作。随着专利数量的爆炸式增长,海量的专利数据由人工提炼耗时耗力,甚至已经超越了人的处理极限,大量自动化挖掘热点研究话题的智能分析系统应运而生。然而,传统的文本挖掘方法大多以单独的关键词来描述概念,存在着不够具体、引起歧义以及无法区别同义词造成的主题意义差别等限制,且需要利用先验的专家词库进行预处理,并不能根据数据集本身的特点无监督地实现关键词的筛选和排序。本文针对上述问题,将主题模型应用在专利热点挖掘领域,建立起专利热点挖掘的系统框架,通过算法设计和各种关键技术,以无监督方式实现了特性损失词的识别与消除以及专利热点的挖掘。具体地,本文的主要贡献和创新点如下:(1)提出了面向摘要及权利要求的语义主题发现及分析方法—基于词语权重的隐含狄利克雷模型(Term Weight based Latent Dirichlet Allocation,TW-LDA),通过引入词语权重,以无监督方式实现了主题发现及对特性损失词的识别与消除。(2)提出了一种改进的基于专利主题向量的聚类算法PTVOM(Patent Topic Vector based OPTICS withMedoids),该算法利用 JS(Jensen-Shannon)距离作为专利的相似度度量,通过选取专利集中最具代表性的n个主题,在这n个主题所在维度对专利集采用OPTICS算法结合k-medoids规则对专利进行聚类。(3)构建并实现了专利热点挖掘的系统框架,实现了包含数据采集、数据提取、数据清洗、主题发现、热点统计等步骤的完整分析流程。(4)采用来自美国专利与商标局(United States Patent and Trademark Office)的实用新型专利进行实验,实验结果表明,本文提出的TW-LDA模型和PTVOM算法相比其它常见算法,效果有所提升。最后,我们对热点挖掘结果进行了可视化展示。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;G255.53
【部分图文】:
?图2-3?LDA的图模型??上述步骤如图2-3所示,图中无填充的点代表隐含变被填充的点代表可观察??值,矩形代表重复抽样过程。主题分布&是多项式分布,由超参数为a的Dirichlet??分布产生,词语分布<pZi,.也是多项式分布,由超参数为P的Dirichlet分布产生《??'■'J??从LDA的产生过程可以得出对应的观测变量与隐含变量的联合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的适用范围十分广泛,可被应用到各个领域,譬如相似文档发现、诌??动打标签、个性化推荐系统、師瓜111^/\¥(^(1扭111<:等等;5郑世卓等人[313]提_出1*<?_1种根??据半监督的LDA生题模型来进行文本分类,找出一个主题集当作隐性层的知识集??通过改进Gibbs采样[311对主题层进行显式监督,获得的分类效果更佳^祝婷等人??%则在本体引入LDA模型中来改进资源推荐效果,根据语义相关度来度量关联主??题
perplexity?(Dtest)?=?exp?j-匕这工?)}?(3-21)??我们依次选取了主题数为20、40、60、80、100,迭代次数设置为1000,采用式??(3-21)计算了对应的困惑度,并画出了?主题数-困惑度”折线图,如图3-1所示,可??知当主题数为K?=?60时困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主题个数??图3-1?TW-LDA模型在不同主题个数下'的困惑度结果??根据Asuncion的实验[43],懸Gibbs采样迭代到一定次数后模型会收敛,从而??困惑度(perplexity)会趋于稳定。我们以每100次迭代为保存间隔,依次保存了主题??数为20、40、60的1000次迭代的中间结果,弁计算其困惑度(perplexity),得到图??3-2,可以看出,模型在前100次迭代中就会快速收敛,迭代次数超过500以后,困??惑度(perplexity)基本不再变化
式(3-22)中correKA)表示主题&和之间的余弦相似度生题间的平均??相似度越小,模型效果越好。我们采用3.4.1节中的专利集,设置cc?=?0.5,?p?=?0.1,??训练各迭代500次,实验结果如图34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加权LDA??〇.〇1霉、?高斯加权LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【参考文献】
本文编号:2845914
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;G255.53
【部分图文】:
?图2-3?LDA的图模型??上述步骤如图2-3所示,图中无填充的点代表隐含变被填充的点代表可观察??值,矩形代表重复抽样过程。主题分布&是多项式分布,由超参数为a的Dirichlet??分布产生,词语分布<pZi,.也是多项式分布,由超参数为P的Dirichlet分布产生《??'■'J??从LDA的产生过程可以得出对应的观测变量与隐含变量的联合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的适用范围十分广泛,可被应用到各个领域,譬如相似文档发现、诌??动打标签、个性化推荐系统、師瓜111^/\¥(^(1扭111<:等等;5郑世卓等人[313]提_出1*<?_1种根??据半监督的LDA生题模型来进行文本分类,找出一个主题集当作隐性层的知识集??通过改进Gibbs采样[311对主题层进行显式监督,获得的分类效果更佳^祝婷等人??%则在本体引入LDA模型中来改进资源推荐效果,根据语义相关度来度量关联主??题
perplexity?(Dtest)?=?exp?j-匕这工?)}?(3-21)??我们依次选取了主题数为20、40、60、80、100,迭代次数设置为1000,采用式??(3-21)计算了对应的困惑度,并画出了?主题数-困惑度”折线图,如图3-1所示,可??知当主题数为K?=?60时困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主题个数??图3-1?TW-LDA模型在不同主题个数下'的困惑度结果??根据Asuncion的实验[43],懸Gibbs采样迭代到一定次数后模型会收敛,从而??困惑度(perplexity)会趋于稳定。我们以每100次迭代为保存间隔,依次保存了主题??数为20、40、60的1000次迭代的中间结果,弁计算其困惑度(perplexity),得到图??3-2,可以看出,模型在前100次迭代中就会快速收敛,迭代次数超过500以后,困??惑度(perplexity)基本不再变化
式(3-22)中correKA)表示主题&和之间的余弦相似度生题间的平均??相似度越小,模型效果越好。我们采用3.4.1节中的专利集,设置cc?=?0.5,?p?=?0.1,??训练各迭代500次,实验结果如图34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加权LDA??〇.〇1霉、?高斯加权LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【参考文献】
相关期刊论文 前10条
1 祝婷;秦春秀;马晓悦;李祖海;;基于本体与LDA主题模型的文本资源推荐方法研究[J];情报杂志;2015年11期
2 王文帅;杜然;程耀东;陈刚;;一种面向大规模微博数据的话题挖掘方法[J];计算机工程与应用;2014年22期
3 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期
4 郑世卓;崔晓燕;;基于半监督LDA的文本分类应用研究[J];软件;2014年01期
5 胡阿沛;张静;雷孝平;张晓宇;;基于文本挖掘的专利技术主题分析研究综述[J];情报杂志;2013年12期
6 范宇;符红光;文奕;;基于LDA模型的专利信息聚类技术[J];计算机应用;2013年S1期
7 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
8 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
9 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
10 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
相关博士学位论文 前1条
1 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年
本文编号:2845914
本文链接:https://www.wllwen.com/tushudanganlunwen/2845914.html
教材专著