融入事件知识的主题表示方法
本文选题:事件 + 主题模型 ; 参考:《计算机学报》2017年04期
【摘要】:主题模型已被广泛用于发现文档潜在主题.已有方法多采用词或短语来表示主题,然而这些方法生成的主题缺乏深层次的语义信息,可解释性比较差.文中提出使用结构化的事件来表示主题.一方面,事件包含比词或短语更丰富的语义;另一方面,一组相关的事件能更合理地解释并区分不同的主题.为解决事件作为基本单元所带来的稀疏性问题,该文在Biterm Topic Model(BTM)的基础上提出两种主题模型,采用两种不同的方式将事件的语义知识融入到主题生成过程中.其中,第1种模型利用Generalized Pólya Urn(GPU)模型天然的聚类效果加大语义相近的事件分配到同一主题的概率,而第2种模型则通过为每个biterm引入指示变量,合理地利用语义知识有效地解决同一个biterm中两个事件的主题分配问题.该文不仅从主题凝聚度和KL散度两个指标直接对主题模型进行评估,还通过将主题表示结果引入到文本分类任务中对模型进行了外部评估.实验结果表明文中提出的模型从共现和语义两个层面有效地解决了事件稀疏性问题.与基于词或短语的主题表示相比,事件结构所包含的语义信息提高了主题生成质量,使主题表示具有更强的可读性和主题判别性.
[Abstract]:Topic models have been widely used to discover potential topics in documents. Most of the existing methods use words or phrases to express the topic, but the topics generated by these methods lack deep semantic information and can be interpreted poorly. In this paper, a structured event is proposed to represent the topic. On the one hand, events contain more semantics than words or phrases; on the other hand, a set of related events can explain and distinguish different topics more reasonably. In order to solve the problem of sparsity caused by event as the basic unit, this paper proposes two topic models based on the Biterm topic Model (BTM), which integrates the semantic knowledge of the event into the topic generation process in two different ways. The first model uses the natural clustering effect of Generalized P 贸 lya Urn (GPU) model to increase the probability of semantically similar events being assigned to the same topic, while the second model introduces indicator variables for each biterm. The rational use of semantic knowledge can effectively solve the topic assignment problem of two events in the same biterm. This paper not only evaluates the topic model directly from the two indexes of topic coherence and KL divergence, but also evaluates the model externally by introducing the result of topic representation into the task of text classification. The experimental results show that the proposed model can effectively solve the event sparsity problem from the co-occurrence and semantic levels. Compared with the topic representation based on words or phrases, the semantic information contained in the event structure improves the topic generation quality and makes the topic representation more readable and subject discriminant.
【作者单位】: 武汉大学计算机学院;乐山师范学院计算机科学学院;武汉大学软件工程国家重点实验室;
【基金】:国家自然科学基金(61133012,61373108,61373056) 国家社科重大招标计划项目(11&ZD189)资助~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 ;《统计自然语言处理基础》[J];中文信息学报;2005年03期
2 徐继伟;;自然语言处理技术在生物信息学中的应用(英文)[J];生物信息学;2006年01期
3 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期
4 ;第二届全国少数民族青年自然语言处理学术研讨会召开[J];模式识别与人工智能;2008年05期
5 高精揓;萧国政;姬东鸿;;手持嵌入式系统应用中的自然语言处理关键技术[J];长江学术;2009年02期
6 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期
7 曹佩;;论自然语言处理[J];信息与电脑(理论版);2010年05期
8 邵泽国;;语言科学发展的新分支——自然语言处理[J];电子科技;2013年05期
9 李霞;;面向本科阶段开设的“自然语言处理”课程教学研究[J];福建电脑;2013年07期
10 贺广明;;自然语言处理的六个级别[J];情报杂志;1988年04期
相关会议论文 前10条
1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年
2 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
7 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
10 张sソ,
本文编号:2115645
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2115645.html