基于LDA和潜在特征向量的文本表示模型研究

发布时间:2021-08-19 16:55
  文本分类作为处理非结构化信息的一种有效手段,在自然语言处理领域得到了广泛研究和应用。然而由于文本数据具有非结构化、高维性、高稀疏性等特征,因此能否有效地表示文本信息是影响后续文本处理效果的关键因素,文本分类的效果也高度依赖于文本表示模型的效果。常用的文本表示方法是基于文本主题的文本表示,因此主题模型的准确度直接影响文本表示的精度。本文主要从文本主题模型和文本表示模型两个方面展开研究。LDA模型是以全局的观念预测文档中的每个词,但它不包含文本特征词的上下文关系,缺失了文章的局部语义信息。目前基于LDA和潜在特征的模型改进方法分为两类,一类针对短文本,通过在大语料集上扩展词向量库改善模型效果;另一类通过词向量加和直接计算主题向量,此类方法词向量与主题向量分属不同语义空间,表示并不准确。考虑到LDA与现有改进模型的优缺点,本文将包含了文本语义特征的潜在特征向量引入模型,提出了基于LDA和潜在特征向量的文本主题表示模型LFV-LDA,在同一语义向量空间训练词向量、主题向量以及文档-主题-词的层次分布,改进后的模型可以直接输出文本主题向量。在新闻语料上对LFV-LDA模型进行训练和测试的实验结果... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

基于LDA和潜在特征向量的文本表示模型研究


图2-1数据采集和预处理示意图??本文数据来源于2018年2、3月份网易、今日头条、搜狐、新浪、腾讯等门??

流程图,数据预处理,流程图


数据爬取、数据清洗??乂?一夕??分类的格??式化数据??r;?^?|?数据预处理? ̄ ̄??中文分词、去停用词??图2-1数据采集和预处理示意图??本文数据来源于2018年2、3月份网易、今日头条、搜狐、新浪、腾讯等门??户网站的新闻数据,主要包括国内、国际、军事、社会、娱乐、体育、科技、财??经八个类别以及新闻标题、发布日期、新闻类别、正文等四部分内容。这些语料??需要网络爬虫来爬取,本文采用混合模式Pi][22]的分布式爬虫爬取数据。??对爬取的数据进行预处理[23]是文本表示建模的第一步,其处理效果的好坏??直接影响后续所有的操作效果,文本预处理步骤如图2-2所示。??—?统一格式? ̄????

过程图,文档生成,主题,过程


3??图2-3主题模型的文档生成过程示意图??图2-3表示了基于主题模型的文档生成过程。主题1?(T〇Pic_l)和主题2??(Topic—2)都包含"互联网,,和“区块链"两个词,但两个主题的词分布不同。??9??

【参考文献】:
期刊论文
[1]网络爬虫的专利技术综述[J]. 马明阳,郭明亮,魏留强.  科技视界. 2018(22)
[2]一种大规模优化问题的邻近随机L-BFGS方法[J]. 周倩,罗贤兵.  贵州大学学报(自然科学版). 2018(03)
[3]词向量与LDA相融合的短文本分类方法[J]. 张群,王红军,王伦文.  现代图书情报技术. 2016(12)
[4]改进粒子群算法优化的支持向量机及其应用[J]. 王振武,孙佳骏,尹成峰.  哈尔滨工程大学学报. 2016(12)
[5]基于词向量的中文词汇蕴涵关系识别[J]. 张志昌,周慧霞,姚东任,鲁小勇.  计算机工程. 2016(02)
[6]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰.  计算机学报. 2011(08)
[7]深层网络爬虫研究综述[J]. 曾伟辉,李淼,曾伟辉.  计算机系统应用. 2008(05)
[8]面向信息检索的自适应中文分词系统[J]. 曹勇刚,曹羽中,金茂忠,刘超.  软件学报. 2006(03)

硕士论文
[1]网络新闻热点话题检测分析与趋势研究[D]. 石正新.首都经济贸易大学 2018
[2]融合上下文信息的汉语分词方法研究[D]. 李质轩.北京交通大学 2018
[3]互联网舆情主题抽取方法研究[D]. 朱煜松.电子科技大学 2018
[4]基于doc2vec和SVM的舆情情感分析系统的研究与设计[D]. 甘如饴.北京邮电大学 2017
[5]基于支持向量机的中文文本分类研究[D]. 杨孟英.华北电力大学 2017
[6]基于LDA模型的中文微博主题挖掘[D]. 易晓晔.北京邮电大学 2016
[7]基于LDA主题模型的TFIDF算法改进及应用[D]. 高扬.广西大学 2015
[8]一种词性标注LDA模型的文本分类方法研究[D]. 张超.华中师范大学 2015
[9]短文本分类技术研究[D]. 张虹.辽宁师范大学 2015
[10]搜索引擎查询纠错的关键技术研究[D]. 窦光辉.北方工业大学 2014



本文编号:3351786

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3351786.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7fcb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com