基于主题模型的汽车专利文本主题挖掘与应用研究
发布时间:2021-03-22 21:53
汽车专利文本以其专业性和高技术价值性,为汽车厂商和相关研究者把握该行业的技术发展、寻求技术创新等提供了一个重要途径。现有针对汽车专利文本的研究分析,多是基于传统的专利计量分析、文本挖掘模型或方法等,它们或是只针对其结构化部分进行较粗粒度的统计分析,或是只能挖掘其非结构化文本内容的浅层信息,很少能深入其文本内部挖掘其深层的语义信息,从而无法从语义角度进行一些较精细的分析或应用,如技术主题识别、技术趋势分析等。随着自然语言处理技术、机器学习相关模型或方法在文本分析领域的应用和发展,以LDA(Latent Dirichlet Allocation)模型为代表的主题模型,在非结构化文本内容分析上显出较大优势,被广泛地应用在许多领域的文本挖掘任务中。主题模型通过抽取文本中蕴含的主题来深刻揭示文本的语义信息,实现对文本内容更好的表征,进而提高文本分析的效果。因此,本文基于汽车专利文本研究分析现状,开展了基于主题模型的汽车专利文本主题挖掘与应用研究,拓展对汽车专利文本研究分析的方式方法,主要完成了以下工作:(1)构建了汽车专利文本主题挖掘与分析框架。在梳理分析汽车专利文本的组成、特点、IPC(Int...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
汽车专利文本示例
录、服务使用记录、文本处理结果等的存储;系统后端业务实现主要使用 Java 语言,前端页面使用 JSP 实现等;项目开发使用 STS 软件,使用 Maven 对项目依赖Jar 包管理,Tomcat 提供系统运行的容器;Mallet 机器学习工具包用于文本聚类、主题建模等功能,HanLP 分词包提供文本分词、词性标注等功能,二者都基于 Java语言,可以较方便地与系统框架整合;ECharts 图表包用于将处理结果以图表的形式可视化展示到前端页面上。5.4.2 系统主要功能模块运行效果原型系统开发完成后,使用第四章实验采集的国内新能源汽车的专利文本进行文本主题挖掘与分析实验,测试系统主要功能模块的运行效果。汽车专利文本预处理功能模块的运行效果如图 5.8 所示。该功能模块对每一条汽车专利文本原始数据进行申请时间、IPC 分类号,以及专利名称、摘要和权利要求等著作项抽取和处理,获得规范化的文本语料,并将处理结果存储到数据库中以备后续的文本主题挖掘功能模块的使用。
图 5.9 汽车专利文本主题挖掘示例Fig 5.9 An example of auto patent topic mining汽车专利文本主题挖掘结果分析模块运行效果如图 5.10 所示。该模块基于文本语料主题挖掘的结果,实现对其热点主题识别、主题强度演化分析和文本推荐的分析或应用。图中显示了 Top-5 的热点主题,涉及了新能源汽车的动力、能源、车辆系统等方面,并且以主题 patent_topic_3(电池模块)为例,直观地显示了该主题在各年的强度变化情况。其中,由于 2002-2007 年的专利文本量过少,计算的主题强度过低,不便于显示,因此将该 6 年的专利文本合并到一个时间窗中,再进行相应的主题强度计算和可视化显示。文本推荐模块给出了和该主题相关度最大的文本列表,点击相应的列表项,可以较方便地获取到其详细的汽车专利文本内容。
【参考文献】:
期刊论文
[1]主题模型中的参数估计方法综述[J]. 杜慧,陈云芳,张伟. 计算机科学. 2017(S1)
[2]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
[3]基于双向长短时记忆模型的中文分词方法[J]. 张洪刚,李焕. 华南理工大学学报(自然科学版). 2017(03)
[4]融合主题模型和协同过滤的多样化移动应用推荐[J]. 黄璐,林川杰,何军,刘红岩,杜小勇. 软件学报. 2017(03)
[5]利用专利文本分析识别技术主题的关键技术研究综述[J]. 许海云,王振蒙,胡正银,王超,朱礼军. 情报理论与实践. 2016(11)
[6]新兴技术发现模型研究[J]. 任智军,乔晓东,张江涛. 现代图书情报技术. 2016(Z1)
[7]专利引证视角下的技术演化研究综述[J]. 张娴,方曙,王春华. 科学学与科学技术管理. 2016(03)
[8]基于专利信息的中国新能源汽车产业技术创新研究[J]. 王静宇,刘颖琦,Ari Kokko. 情报杂志. 2016(01)
[9]基于专利IPC分类号的技术竞争对象的群组分析方法[J]. 韩红旗,付媛,朱礼军. 情报工程. 2015(04)
[10]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
博士论文
[1]文本分类中特征加权算法和文本表示策略研究[D]. 贾隆嘉.东北师范大学 2016
[2]基于主题模型的专利文本挖掘方法及应用研究[D]. 陈虹枢.北京理工大学 2015
[3]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于主题模型的文本挖掘的研究[D]. 王亮.大连理工大学 2015
[2]中文社会媒体环境下汽车质量问题发现方法研究[D]. 王齐林.合肥工业大学 2015
[3]基于主题模型的资讯推荐系统的研究与实现[D]. 张姣.上海交通大学 2015
[4]专利文献主题发现方法的比较研究[D]. 贾龙飞.大连理工大学 2014
[5]基于专利数据挖掘的技术趋势分析方法[D]. 张超.大连理工大学 2014
[6]基于专利文献的关键技术分析方法研究[D]. 徐珂珂.大连理工大学 2013
[7]基于专利数据的电动汽车发展趋势研究[D]. 翟亮.武汉理工大学 2013
[8]几种特征提取方法的研究[D]. 赵浩鑫.河北大学 2012
[9]基于LDA模型的文本聚类研究[D]. 董婧灵.华中师范大学 2012
[10]基于专利的技术发展趋势研究[D]. 历妍.北京工业大学 2011
本文编号:3094543
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
汽车专利文本示例
录、服务使用记录、文本处理结果等的存储;系统后端业务实现主要使用 Java 语言,前端页面使用 JSP 实现等;项目开发使用 STS 软件,使用 Maven 对项目依赖Jar 包管理,Tomcat 提供系统运行的容器;Mallet 机器学习工具包用于文本聚类、主题建模等功能,HanLP 分词包提供文本分词、词性标注等功能,二者都基于 Java语言,可以较方便地与系统框架整合;ECharts 图表包用于将处理结果以图表的形式可视化展示到前端页面上。5.4.2 系统主要功能模块运行效果原型系统开发完成后,使用第四章实验采集的国内新能源汽车的专利文本进行文本主题挖掘与分析实验,测试系统主要功能模块的运行效果。汽车专利文本预处理功能模块的运行效果如图 5.8 所示。该功能模块对每一条汽车专利文本原始数据进行申请时间、IPC 分类号,以及专利名称、摘要和权利要求等著作项抽取和处理,获得规范化的文本语料,并将处理结果存储到数据库中以备后续的文本主题挖掘功能模块的使用。
图 5.9 汽车专利文本主题挖掘示例Fig 5.9 An example of auto patent topic mining汽车专利文本主题挖掘结果分析模块运行效果如图 5.10 所示。该模块基于文本语料主题挖掘的结果,实现对其热点主题识别、主题强度演化分析和文本推荐的分析或应用。图中显示了 Top-5 的热点主题,涉及了新能源汽车的动力、能源、车辆系统等方面,并且以主题 patent_topic_3(电池模块)为例,直观地显示了该主题在各年的强度变化情况。其中,由于 2002-2007 年的专利文本量过少,计算的主题强度过低,不便于显示,因此将该 6 年的专利文本合并到一个时间窗中,再进行相应的主题强度计算和可视化显示。文本推荐模块给出了和该主题相关度最大的文本列表,点击相应的列表项,可以较方便地获取到其详细的汽车专利文本内容。
【参考文献】:
期刊论文
[1]主题模型中的参数估计方法综述[J]. 杜慧,陈云芳,张伟. 计算机科学. 2017(S1)
[2]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
[3]基于双向长短时记忆模型的中文分词方法[J]. 张洪刚,李焕. 华南理工大学学报(自然科学版). 2017(03)
[4]融合主题模型和协同过滤的多样化移动应用推荐[J]. 黄璐,林川杰,何军,刘红岩,杜小勇. 软件学报. 2017(03)
[5]利用专利文本分析识别技术主题的关键技术研究综述[J]. 许海云,王振蒙,胡正银,王超,朱礼军. 情报理论与实践. 2016(11)
[6]新兴技术发现模型研究[J]. 任智军,乔晓东,张江涛. 现代图书情报技术. 2016(Z1)
[7]专利引证视角下的技术演化研究综述[J]. 张娴,方曙,王春华. 科学学与科学技术管理. 2016(03)
[8]基于专利信息的中国新能源汽车产业技术创新研究[J]. 王静宇,刘颖琦,Ari Kokko. 情报杂志. 2016(01)
[9]基于专利IPC分类号的技术竞争对象的群组分析方法[J]. 韩红旗,付媛,朱礼军. 情报工程. 2015(04)
[10]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
博士论文
[1]文本分类中特征加权算法和文本表示策略研究[D]. 贾隆嘉.东北师范大学 2016
[2]基于主题模型的专利文本挖掘方法及应用研究[D]. 陈虹枢.北京理工大学 2015
[3]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于主题模型的文本挖掘的研究[D]. 王亮.大连理工大学 2015
[2]中文社会媒体环境下汽车质量问题发现方法研究[D]. 王齐林.合肥工业大学 2015
[3]基于主题模型的资讯推荐系统的研究与实现[D]. 张姣.上海交通大学 2015
[4]专利文献主题发现方法的比较研究[D]. 贾龙飞.大连理工大学 2014
[5]基于专利数据挖掘的技术趋势分析方法[D]. 张超.大连理工大学 2014
[6]基于专利文献的关键技术分析方法研究[D]. 徐珂珂.大连理工大学 2013
[7]基于专利数据的电动汽车发展趋势研究[D]. 翟亮.武汉理工大学 2013
[8]几种特征提取方法的研究[D]. 赵浩鑫.河北大学 2012
[9]基于LDA模型的文本聚类研究[D]. 董婧灵.华中师范大学 2012
[10]基于专利的技术发展趋势研究[D]. 历妍.北京工业大学 2011
本文编号:3094543
本文链接:https://www.wllwen.com/kejilunwen/qiche/3094543.html