一种基于概率潜在语义分析的专利主题标引方法研究
发布时间:2025-01-07 06:03
为了准确稳定地对专利主题进行标引,本文提出了一种基于概率潜在语义分析的专利主题标引方法。首先建立由共同主题和特定主题所联合起来的混合模型;然后通过这两类主题相关性推断出训练集和测试集特定主题的映射关系;最后选择相似度最高的主题作为专利的主题完成标引。实验结果表明,该方法能较为准确、稳定地对未标记专利进行主题标引。本文尝试将概率潜在语义分析运用到专利文本的标引中,既是对专利标引自动化的一种积极尝试,也为深层次挖掘专利信息情报技术提供了一种新的思路。
【文章页数】:10 页
【部分图文】:
本文编号:4024605
【文章页数】:10 页
【部分图文】:
图1 PLSA示意图
在本文提出的方法中,假设专利的主题是由共同主题和特定主题共同表示的,特定主题包含训练集中的特定主题和测试集中的特定主题,一般来说,共同主题和特定主题的个数是根据数据集的情况而定义。如何计算训练集和测试集中主题之间相关性的计算方法是本文的一个关键问题。本文将共同主题作为一个桥梁,以....
图2 三种标引方法在IPC分类号为的D06、E03数据集上的ROC曲线
本文也对各个方法在各个数据集上的标引结果进行了分析,具体分析的方法是通过绘制不同方法在同一个数据集上的ROC曲线来评价的,ROC曲线下方的面积用AUC值来表示,一般来说,AUC的值越大,表明该方法在这个数据集上的分类效果越好。图2显示了三种分类方法在本文实验过程中的ROC曲线图。....
本文编号:4024605
本文链接:https://www.wllwen.com/tushudanganlunwen/4024605.html