当前位置:主页 > 科技论文 > 软件论文 >

基于共现潜在语义向量空间模型的语义核构建

发布时间:2018-10-29 20:28
【摘要】:实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。
[Abstract]:The realization of digital library resources aggregation knowledge discovery can not be separated from the effective representation of knowledge. As a classical text representation model, vector space model (VSM) and its derivative model play an important role in the research of information retrieval and knowledge discovery, but there are still some shortcomings. As a new text representation model, the latent semantic vector space model (CLSVSM) improves the accuracy of text clustering obviously compared with VSM. However, in the face of the application of big data, the dimension of co-occurrence matrix is often high, which leads to the computational complexity of the model. Therefore, this paper constructs a semantic kernel (CLSVSM_K) on the basis of CLSVSM, which is based on the idea of latent semantic analysis of (LSA). CLSVSM_K not only reduces the dimension of co-occurrence matrix, but also reduces the dimension of co-occurrence matrix. Moreover, the synonymy information of text feature words is merged. In this paper, the semantic kernel model is applied to the topic clustering in literature. The experimental results show that the proposed method can effectively reduce the dimension and computational complexity of the feature space and improve the performance of the clustering algorithm. Moreover, the accuracy of topic clustering is improved. The application of this model will be helpful to information resource organization, knowledge discovery and knowledge optimization of digital library.
【作者单位】: 山西大学数学科学学院;山西大学管理与决策研究所;
【基金】:国家自然科学基金“共现潜在语义向量空间模型及其语义核的构建与应用研究”(71503151) 山西省高等学校创新人才支持计划“基于潜在语义的文本信息主题深度聚类研究”(2016052006)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 张玉峰;王志芳;;文本分类中的语义核函数研究[J];情报科学;2010年07期

2 刘建舟;邵雄凯;;基于语义核的中文实体关系抽取[J];信息系统工程;2011年03期

3 杜家利;于屏方;;计算语义学视角下的文本风格研究[J];计算机工程与应用;2011年30期

4 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期

5 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

6 张玉连;张敏;张波;;一种扩展的向量空间模型-隐含语义索引模型研究[J];燕山大学学报;2006年01期

7 李雪峰;刘鲁;张f,

本文编号:2298727


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2298727.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3e2f1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com