运用图示法自动提取中文专利文本的语义信息
发布时间:2017-08-28 05:44
本文关键词:运用图示法自动提取中文专利文本的语义信息
更多相关文章: 图示法 专利信息提取 频繁子图挖掘 专利分类
【摘要】:[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程]设计两种运用图结构的模型:1基于关键词的文本图模型;2基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘,并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。
【作者单位】: 南京大学计算机科学与技术系;江苏省专利信息服务中心;
【关键词】: 图示法 专利信息提取 频繁子图挖掘 专利分类
【分类号】:G306;G254
【正文快照】: 1引言近10年来,专利文本自动处理技术被广泛地用于专利信息应用的各个层面,包括专利信息检索[1]、专利分类[2]和专利引用分析[3]等。专利文档的平均长度要比新闻长24倍[4],这使得人工进行专利信息的提取成为一项耗时又耗力的任务。传统的专利信息提取方法[5-6]是通过使用模式
【相似文献】
中国期刊全文数据库 前1条
1 曾艳;侯汉清;;古籍文本抽词研究[J];图书情报工作;2008年01期
,本文编号:747273
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/747273.html