基于多特征多分类器集成的专利自动分类研究
发布时间:2018-05-09 02:38
本文选题:专利分类 + 段落向量 ; 参考:《数据分析与知识发现》2017年08期
【摘要】:【目的】为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征,分别训练朴素贝叶斯、支持向量机、AdaBoost分类器,以此构建特征 类别矩阵,并结合F1权重矩阵集成,获得最终IPC预测分类号。【结果】对2014年 2016年"发动机或泵"领域的10个小类进行分类,使用Top Prediction、All Categories和Two Guesses三种评估方法得到准确率分别为:78.9%、80.1%、91.2%。【局限】训练仅仅使用了2014年 2016年共三年的专利数据,数据规模有限。【结论】在"发动机或泵"领域,本文方法能够有效地提高专利文本分类的准确率。
[Abstract]:[objective] in order to assign IPC classification number to patent application accurately, this paper presents a patent automatic classification method based on multi-feature multi-classifier integration. [methods] A full-dictionary TFIDF feature extracted from patent application is used. TFIDF feature, paragraph vector feature, subject model vector feature of information gain dictionary, training naive Bayes, support vector machine and AdaBoost classifier respectively to construct feature class matrix and integrate F1 weight matrix. Get the final IPC forecast taxonomy number. [results] classify 10 subcategories in the "engine or pump" area in 2014 or 2016, Using the Top prediction all Categories and Two Guesses methods, the accuracy rates are: 78.9% and 80.1%, 91.2% respectively. [limited] the training only uses patent data from 2014 to 2016, and the data scale is limited. [conclusion] in the field of "engines or pumps," This method can effectively improve the accuracy of patent text classification.
【作者单位】: 北京联合大学智慧城市学院;北京联合大学机器人学院;北京联合大学城市轨道交通与物流学院;
【基金】:国家重点研发计划项目“公共安全风险防控与应急技术装备”(项目编号:2016YFC0802107) 北京市教育委员会科技计划面上项目(项目编号:SQKM201411417013)的研究成果之一
【分类号】:G254.1
【相似文献】
相关期刊论文 前1条
1 乔建忠;;基于多分类器组合择优方法的主题爬行分类策略[J];图书情报工作;2013年14期
,本文编号:1864214
本文链接:https://www.wllwen.com/tushudanganlunwen/1864214.html