基于主题模型的专利文本挖掘方法及应用研究

发布时间:2020-07-05 01:54
【摘要】:进入二十一世纪以来,人类社会的科技发展进入了前所未有的高速时期。快速更新换代的技术带动了相应专利文献的产生与积累,这种大背景下,专利文本挖掘已经不再仅仅是一个相对孤立的辅助模块,而是一跃成为技术发展决策活动中必不可少的一环,在技术研发的起始与收尾过程中扮演着发掘重要知识、支持战略制定以及总结发展情况的重要角色。因此,如何准确高效地进行海量专利文献的文本挖掘,同时识别并获取其中所隐藏的关键技术内容及潜在重大机遇,目前已经成为研究与应用中被广泛关注的重点。本文面向专利文本挖掘,在回顾总结国内外现有技术与方法的基础上,构建并实现了基于主题模型的专利文本发掘方法,以无监督学习的方式完成了对大量专利文本技术主题的自动识别与抓取,同时,通过运用分段线性表达、最小二乘法等数学方法,对已获取的专利主题进行了定量的重要程度评定、趋势转折贡献度估计以及未来发展趋势分析。为了证明方法的可行性和有效性,本文采用了来自美国专利与商标局的实用新型专利进行了实证研究和案例分析。具体来说,本文的主要创新点如下:(1)基于主题模型的专利文本挖掘系统框架本文将主题模型这一国际前沿的热点统计模型引入到专利文本挖掘及科技管理领域,提出了基于主题模型的专利文本挖掘系统框架,并开发实现了从数据输入、文本清理、主题识别、主题选取到主题贡献程度估计、主题发展趋势预测的完整分析流程。(2)基于专利权利要求的科技主题识别及抓取方法本文针对权利要求的特有属性,建立并实现了基于权利要求的科技主题识别及抓取方法:在给定技术范围后,通过网页信息抓取的形式获取目标专利的权利要求文本,同时制定了适用于权利要求的文本清洗模块,通过运用隐含狄利克雷分布(Latent Dirichlet Allocation)实现了对大量文本中潜在的科技主题及主题分布的非监督自动识别与获取。为了验证方法可行性和有效性,本文以2000年至2014年受让人国家为澳大利亚的1,3910条美国实用新型专利对方法进行了实证研究和案例分析。(3)定量的专利授权活动趋势转折点抓取方法本文针对传统技术预测及评估中,模型拟合无法判断趋势转折和具体专利活动趋势变动等问题,采用分段线性表示的数学方法,定量地获取了专利活动中的趋势转折点,并使用转折点将专利活动分割成在时序上的趋势段,从而凸显并抓取潜在的专利发表趋势变动。同样,为了验证方法有效性,本文随后以上述美国实用新型专利数据及澳大利亚ICT产业相关专利数据对方法进行了实证研究和案例分析。(4)科技主题对发表趋势转折贡献度的分析评估方法在已获取的隐含在大量权利要求中的科技主题中,不同的主题对于该领域内专利授权量的整体趋势变化的贡献度不尽相同。本文提出了一种定量评估科技主题对整体技术范围发展趋势转折贡献度的方法,由主题分布矩阵计算出每个科技主题的贡献系数,从而对各个主题在各趋势段中的重要性变化加以评估分析。为了验证方法可行性和有效性,本文以美国实用新型专利对方法进行了实证研究和案例分析。(5)基于年度主题权重矩阵的科技主题发展趋势分析本文综合由隐含狄利克雷分布估计出的科技主题信息及主题分布,建立年度主题权重矩阵,并利用最小二乘法对各个重要科技主题自身的时序权重变化进行了定量的计算,最终实现了对每个科技主题发展趋势的预测及估计。为了验证方法可行性和有效性,本文随后以美国实用新型专利对方法进行了实证研究和案例分析。此外,在主题表达方面,针对传统专利文本挖掘中,关键词无法清晰获取科技主题语义并难以区分同义词这一不足,本文采用词汇分布的方式表达科技主题,以分布中概率最高的一组词汇来反映对应科技主题的具体内容。避免了“以词表意”容易产生歧义的问题,切实地赋予了各个技术主题以语义含义。
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1;G306

【相似文献】

相关期刊论文 前10条

1 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期

2 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期

3 郭洪涛;郑光;赵静;姜淼;何晓娟;吕爱平;;基于文本挖掘分析甲型H1N1流感的中医药治疗特色[J];世界科学技术(中医药现代化);2011年05期

4 邹权;林琛;刘晓燕;郭茂祖;;生物信息学中的文本挖掘方法[J];计算机工程与设计;2011年12期

5 陆宇杰;许鑫;郭金龙;;文本挖掘在人文社会科学研究中的典型应用述评[J];图书情报工作;2012年08期

6 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期

7 常青;文本挖掘 挖掘知识[J];中国计算机用户;2004年24期

8 刘剑兰;用信息萃取进行文本挖掘的方法[J];情报杂志;2004年12期

9 唐明;张自力;;文本挖掘在多文化交流平台中的应用研究[J];西南师范大学学报(自然科学版);2006年03期

10 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期

相关会议论文 前10条

1 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年

2 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

3 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年

4 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

6 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年

7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

8 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

10 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年

相关重要报纸文章 前4条

1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年

2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年

3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年

4 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年

相关博士学位论文 前10条

1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

2 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

3 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年

4 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年

5 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年

6 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

7 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年

8 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年

9 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年

10 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年

2 刘智勇;基于云计算的文本挖掘算法研究[D];电子科技大学;2011年

3 唐明;文本挖掘及其在多文化交流平台中的应用[D];西南大学;2006年

4 郭建永;聚类分析在文本挖掘中的应用与研究[D];江南大学;2008年

5 张庆;基于本体的文本挖掘结果的存储与表现[D];中国医科大学;2009年

6 王春锋;基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统[D];北京交通大学;2008年

7 邹振华;基于文本挖掘的量化投资系统[D];华南理工大学;2013年

8 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年

9 管芳;基于偏序结构图对中医药治疗失眠文献的文本挖掘[D];燕山大学;2014年

10 杨青;转录调控信息文本挖掘算法及实现[D];复旦大学;2009年



本文编号:2741907

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2741907.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6fa16***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com