基于语义扩展的短文本分类研究
发布时间:2021-06-25 05:13
互联网的迅速发展加剧了信息时代的进步,短文本作为一种简单高效的表达方式广泛存在于各种社交网站中,如微博、新闻标题、商品评论、论坛、朋友圈等,想要从这些海量的文本资源中挖掘出有用的信息变得愈加困难。由于短文本具有稀疏性、即时性、海量性、不规则性等特点,传统的分类方法仍然存在文本语义信息提取不足和严重的数据稀疏问题。目前,引入外部知识库来扩展短文本的语义信息是较为热点的研究方向,如何才能获得文本中多层语义表达,并且消除短文本中不相关术语的影响,成为当前短文本分类研究的一个重要课题。针对上述问题并参考已有的研究成果,本文引入语义特征扩展的思想,将Probase语义网络作为外部知识库,通过词语概念化和增加语义共现词的方式对短文本进行扩充,使其能够更好地表达短文本中隐含的信息,达到消歧的效果。然后再结合Word2vec模型训练语义信息词向量,很好地解决了文本表示所面临的数据稀疏性和词语之间语义不足的问题,在传统分类模型的基础上,提出了一种基于语义扩展的短文本分类方法。本文首先仔细分析了短文本独有的特点和传统短文本分类技术,指出了传统短文本分类模型中存在的缺陷,确定了Probase知识库相较于其他...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
最优分类超平面
图 2.3 NNLM 原理模型图NNLM 采 用 输 入 层 、 隐 藏 层 和 输 出 层 的 神 经 网 络 结 构 。 输 入 层( 1) ( 2) 1, , ,n k n kw w ,这种形式能够灵活展现任意 N 元词组,完美的避免了传语言模型中遇到的数据稀疏问题。每个词都对应一个向量: ( )kc w 。故输入层的矩阵如公式(2-37)所示。( 1) ( 2) 2 1( ), ( ), , ( ), ( ) k n k n k k x C w C w C w C w (2-隐藏层等同于 BP 神经网络一样,可以直接使用d Hx计算,然后通过tanh数。其中 y 的计算公式如(2-38)所示。y b Wx U tanh( d Hx )(2-输出层总共有 V 个元素, ( )iy w 表示元素值中词语的所有可能性,由于输出元素值之和不为 1,因此,输出层处理完之后需要加上 softmax 函数对概率进
ConceptAttribute concept;attribute;score 概念和属性的关系ConcepClusterString Cluster id;center names;concept names 概念与概念之间的关系ConceptDict Concept;id 概念词典InstanceDictinstance;id;ambiguity_level;ambiguity_score实例词典Isa_CoreConcept;entity;frequency;popularity;conceptFrequency概念和实例的关系StopConcept stopTerms 概念停用词StopInstance stopTerms 实例停用词在语义构建过程中,经过 Probase 语义网络丰富之后的短文本拥有大量的概念和实例,这些都会被收录在“Isa_Core”中,根据 3.2 节和 3.3 节中的公式进行概念词和共现词的选取,最后生成可识别的“txt”格式文件,处理之后的文档部分示例如图 5.2所示,为短文本的后续操作奠定良好的基础。
本文编号:3248571
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
最优分类超平面
图 2.3 NNLM 原理模型图NNLM 采 用 输 入 层 、 隐 藏 层 和 输 出 层 的 神 经 网 络 结 构 。 输 入 层( 1) ( 2) 1, , ,n k n kw w ,这种形式能够灵活展现任意 N 元词组,完美的避免了传语言模型中遇到的数据稀疏问题。每个词都对应一个向量: ( )kc w 。故输入层的矩阵如公式(2-37)所示。( 1) ( 2) 2 1( ), ( ), , ( ), ( ) k n k n k k x C w C w C w C w (2-隐藏层等同于 BP 神经网络一样,可以直接使用d Hx计算,然后通过tanh数。其中 y 的计算公式如(2-38)所示。y b Wx U tanh( d Hx )(2-输出层总共有 V 个元素, ( )iy w 表示元素值中词语的所有可能性,由于输出元素值之和不为 1,因此,输出层处理完之后需要加上 softmax 函数对概率进
ConceptAttribute concept;attribute;score 概念和属性的关系ConcepClusterString Cluster id;center names;concept names 概念与概念之间的关系ConceptDict Concept;id 概念词典InstanceDictinstance;id;ambiguity_level;ambiguity_score实例词典Isa_CoreConcept;entity;frequency;popularity;conceptFrequency概念和实例的关系StopConcept stopTerms 概念停用词StopInstance stopTerms 实例停用词在语义构建过程中,经过 Probase 语义网络丰富之后的短文本拥有大量的概念和实例,这些都会被收录在“Isa_Core”中,根据 3.2 节和 3.3 节中的公式进行概念词和共现词的选取,最后生成可识别的“txt”格式文件,处理之后的文档部分示例如图 5.2所示,为短文本的后续操作奠定良好的基础。
本文编号:3248571
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3248571.html