基于上下文与稀疏约束的短文本表示及分类研究
发布时间:2021-03-28 14:14
随着Internet的急速普及,短信、微博、论坛等短文本形式的信息急剧增长,短文本的出现对文本研究带来了新挑战。由于短文本数据量异常庞大,数据中包含人们对社会现象的观点和态度,话题涉及政治、金融、文娱等众多领域,通过对这些类型各异的短文本进行研究,能够为话题跟踪与发现、互联网信息监管、流行语分析、舆情预警与舆论引导工作等领域提供相应解决方案。通过对现有短文本表示及分类现状总结分析,本文主要在短文本表示和分类两个方面展开深入研究,并取得如下研究成果:1.基于语义特征空间上下文的短文本表示学习方法针对传统短文本表示高维稀疏问题,提出基于语义特征空间上下文的短文本表示学习方法。该方法考虑到初始特征空间维度过高,首先从统计和深度学习两个角度综合计算词项间初始相似度,依据初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项上下文信息,设计三种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵从而对短文本进行表示学习。实验结果表明,该方法能较好地反映短文本的语义信息,能合理、有效地表示短文本。2.熵权约束稀疏表示的短文...
【文章来源】:西北师范大学甘肃省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
图2-1向量空间模型??2-1
图2-2最优分类超平面示意图??2-2H显H1界面,原因是H分界面将两个类的数据进行??
图3-1短文本表示框架图??3.1语义特征空间的构建??
【参考文献】:
期刊论文
[1]基于语义特征空间上下文的短文本表示学习[J]. 脱婷,马慧芳,魏家辉,刘海姣. 计算机工程与科学. 2019(02)
[2]融合标签平均划分距离和结构关系的微博用户可重叠社区发现[J]. 马慧芳,陈海波,赵卫中,邴睿,黄乐乐. 电子学报. 2018(11)
[3]融合共现距离和区分度的短文本相似度计算方法[J]. 刘文,马慧芳,脱婷,陈海波. 计算机工程与科学. 2018(07)
[4]基于加权超图随机游走的文献关键词提取算法[J]. 马慧芳,刘芳,夏琴,郝占军. 电子学报. 2018(06)
[5]基于特征变权的动态模糊特征选择算法[J]. 王玲,孟建瑶. 计算机研究与发展. 2018(05)
[6]基于RNN和主题模型的社交网络突发话题发现[J]. 石磊,杜军平,梁美玉. 通信学报. 2018(04)
[7]基于双词主题模型的半监督实体消歧方法研究[J]. 张雄,陈福才,黄瑞阳. 电子学报. 2018(03)
[8]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[9]基于分类的微博新情感词抽取方法和特征分析[J]. 刘德喜,聂建云,万常选,刘喜平,廖述梅,廖国琼,钟敏娟,江腾蛟. 计算机学报. 2018(07)
[10]基于词向量的藏文词性标注方法研究[J]. 郑亚楠,珠杰. 中文信息学报. 2017(01)
博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]汉语句义结构模型分析及其文本表示方法研究[D]. 韩磊.北京理工大学 2016
硕士论文
[1]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[2]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
本文编号:3105702
【文章来源】:西北师范大学甘肃省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
图2-1向量空间模型??2-1
图2-2最优分类超平面示意图??2-2H显H1界面,原因是H分界面将两个类的数据进行??
图3-1短文本表示框架图??3.1语义特征空间的构建??
【参考文献】:
期刊论文
[1]基于语义特征空间上下文的短文本表示学习[J]. 脱婷,马慧芳,魏家辉,刘海姣. 计算机工程与科学. 2019(02)
[2]融合标签平均划分距离和结构关系的微博用户可重叠社区发现[J]. 马慧芳,陈海波,赵卫中,邴睿,黄乐乐. 电子学报. 2018(11)
[3]融合共现距离和区分度的短文本相似度计算方法[J]. 刘文,马慧芳,脱婷,陈海波. 计算机工程与科学. 2018(07)
[4]基于加权超图随机游走的文献关键词提取算法[J]. 马慧芳,刘芳,夏琴,郝占军. 电子学报. 2018(06)
[5]基于特征变权的动态模糊特征选择算法[J]. 王玲,孟建瑶. 计算机研究与发展. 2018(05)
[6]基于RNN和主题模型的社交网络突发话题发现[J]. 石磊,杜军平,梁美玉. 通信学报. 2018(04)
[7]基于双词主题模型的半监督实体消歧方法研究[J]. 张雄,陈福才,黄瑞阳. 电子学报. 2018(03)
[8]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[9]基于分类的微博新情感词抽取方法和特征分析[J]. 刘德喜,聂建云,万常选,刘喜平,廖述梅,廖国琼,钟敏娟,江腾蛟. 计算机学报. 2018(07)
[10]基于词向量的藏文词性标注方法研究[J]. 郑亚楠,珠杰. 中文信息学报. 2017(01)
博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]汉语句义结构模型分析及其文本表示方法研究[D]. 韩磊.北京理工大学 2016
硕士论文
[1]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[2]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
本文编号:3105702
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3105702.html
最近更新
教材专著