基于Doc2vec的专利与行业类目映射研究
发布时间:2022-08-06 18:29
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。
【文章页数】:8 页
【文章目录】:
0 引言
1 专利与行业类目映射研究现状
(1)专家判定法
(2)交叉检索法
(3)概率分析法
2 工作原理
2.1 获取数据
2.2 数据预处理
2.3 获取类目特征词
2.4 文本向量化
2.5 余弦相似度
3 实验
3.1 NIC农业小类与IPC农业小类相似度计算结果
3.2 NIC农业小类与IPC农业大组相似度计算结果
3.3 IPC每组农业小类下大组与NIC农业小类相似度平均值
3.4 实验总结
4 结语
【参考文献】:
期刊论文
[1]基于余弦相似度的加权K近邻室内定位算法[J]. 黄运稳,陈光,叶建芳. 计算机应用与软件. 2019(02)
[2]基于词向量Doc2vec的双向LSTM情感分析[J]. 张俊飞,毕志升,吴小玲. 计算机与数字工程. 2018(12)
[3]Python环境下的文本分词与词云制作[J]. 严明,郑昌兴. 现代计算机(专业版). 2018(34)
[4]文本向量化表示方法的总结与分析[J]. 冀宇轩. 电子世界. 2018(22)
[5]基于doc2vec和TF-IDF的相似文本识别[J]. 贺益侗. 电子制作. 2018(18)
[6]基于深度学习的慢性肝病CT报告相似度分析[J]. 常炳国,刘清星. 计算机应用与软件. 2018(08)
[7]利用Doc2Vec判断中文专利相似性[J]. 张海超,赵良伟. 情报工程. 2018(02)
[8]基于Word2vec的文档分类方法[J]. 陈杰,陈彩,梁毅. 计算机系统应用. 2017(11)
[9]浅谈专利分类、行业分类与商品分类的统一模型[J]. 杨栋,邱晓宁,梁素平,成慧明,曹鹏,张建强,严薇,田晶. 中国发明与专利. 2017(09)
[10]一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J]. 田创,赵亚娟. 图书情报工作. 2016(20)
本文编号:3670147
【文章页数】:8 页
【文章目录】:
0 引言
1 专利与行业类目映射研究现状
(1)专家判定法
(2)交叉检索法
(3)概率分析法
2 工作原理
2.1 获取数据
2.2 数据预处理
2.3 获取类目特征词
2.4 文本向量化
2.5 余弦相似度
3 实验
3.1 NIC农业小类与IPC农业小类相似度计算结果
3.2 NIC农业小类与IPC农业大组相似度计算结果
3.3 IPC每组农业小类下大组与NIC农业小类相似度平均值
3.4 实验总结
4 结语
【参考文献】:
期刊论文
[1]基于余弦相似度的加权K近邻室内定位算法[J]. 黄运稳,陈光,叶建芳. 计算机应用与软件. 2019(02)
[2]基于词向量Doc2vec的双向LSTM情感分析[J]. 张俊飞,毕志升,吴小玲. 计算机与数字工程. 2018(12)
[3]Python环境下的文本分词与词云制作[J]. 严明,郑昌兴. 现代计算机(专业版). 2018(34)
[4]文本向量化表示方法的总结与分析[J]. 冀宇轩. 电子世界. 2018(22)
[5]基于doc2vec和TF-IDF的相似文本识别[J]. 贺益侗. 电子制作. 2018(18)
[6]基于深度学习的慢性肝病CT报告相似度分析[J]. 常炳国,刘清星. 计算机应用与软件. 2018(08)
[7]利用Doc2Vec判断中文专利相似性[J]. 张海超,赵良伟. 情报工程. 2018(02)
[8]基于Word2vec的文档分类方法[J]. 陈杰,陈彩,梁毅. 计算机系统应用. 2017(11)
[9]浅谈专利分类、行业分类与商品分类的统一模型[J]. 杨栋,邱晓宁,梁素平,成慧明,曹鹏,张建强,严薇,田晶. 中国发明与专利. 2017(09)
[10]一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J]. 田创,赵亚娟. 图书情报工作. 2016(20)
本文编号:3670147
本文链接:https://www.wllwen.com/tushudanganlunwen/3670147.html