当前位置:主页 > 经济论文 > 宏观经济论文 >

三元共现潜在语义向量空间模型及降维研究

发布时间:2020-07-23 18:13
【摘要】:文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入三元共现,通过研究三元共现表示,三元共现频次及三元共现相对强度的计算,最终建立三元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显著提高聚类效果。在所选评价指标(纯度,熵值,F_1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSM_K)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,三元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F224

【相似文献】

相关期刊论文 前10条

1 康耀红;;基于词相依性的向量空间模型[J];情报学报;1989年03期

2 韩美灵;杨勇;;一种面向语义检索的向量空间模型改进方法[J];农业网络信息;2012年10期

3 孟海滨;向量空间模型法用于网上卫生装备信息资源自动搜集技术研究[J];医疗卫生装备;2002年05期

4 康耀红;情报检索的向量空间模型[J];情报理论与实践;1989年03期

5 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

6 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[J];中文信息学报;2012年02期

7 夏云庆;杨莹;张鹏洲;刘宇飞;;基于情感向量空间模型的歌词情感分析[J];中文信息学报;2010年01期

8 程艳;许维胜;杨继君;何一文;;基于本体兴趣特征向量空间模型的社区自组织算法[J];系统工程;2009年05期

9 姚玉开;王烨;卢翠荣;;向量空间模型的信息检索技术[J];价值工程;2013年13期

10 乌庆敏;杨思春;;概念向量空间模型在智能答疑系统中的应用[J];安徽工业大学学报(自然科学版);2008年02期

相关会议论文 前10条

1 夏云庆;杨莹;张鹏洲;;基于情感向量空间模型的歌词情感分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 石敏;康耀红;;关于广义向量空间模型中布尔运算的修正[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

4 刘巍巍;张卫强;刘加;;基于鉴别性向量空间模型的语种识别[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

5 曹晶;孙铁利;杨柳;;基于概念向量空间模型的信息检索方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年

6 邓妍;张卫强;刘加;;基于区分性向量空间模型的语种识别[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年

7 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年

8 姚远;张蕙;郝群;徐世东;;基于本体的用户画像构建方法[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关重要报纸文章 前2条

1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年

2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年

相关博士学位论文 前4条

1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

2 姬波;信息瓶颈方法的特征权重研究[D];郑州大学;2013年

3 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

4 Amjad Mahmood;半监督进化集成及其在网络视频分类中的应用[D];西南交通大学;2015年

相关硕士学位论文 前10条

1 王世昌;三元共现潜在语义向量空间模型及降维研究[D];山西大学;2019年

2 姜春峰;基于DNN及向量空间模型的中文微博情感分析[D];东北大学;2015年

3 张翠翠;基于双向遍历空间模型的主观题评判算法设计和阅卷系统实现[D];合肥工业大学;2018年

4 刘兵;基于交叉度的多级话题聚类研究[D];云南大学;2017年

5 王正方;基于层次向量空间模型的个性化服装推荐研究[D];浙江理工大学;2018年

6 王萌;基于概念向量空间模型的中文自动文摘研究[D];华中师范大学;2005年

7 周昆;基于改进向量空间模型的中文文本分类研究[D];北京理工大学;2015年

8 刘志为;基于N层向量空间模型的网络信息检索平台[D];天津大学;2005年

9 邓磊;一个基于向量空间模型的个性化推荐系统[D];华东交通大学;2009年

10 周义;质谱数据处理算法的研究与应用设计[D];宁波大学;2017年



本文编号:2767665

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/2767665.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c85c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com