基于改进朴素贝叶斯算法微博行为预测
发布时间:2021-02-05 23:14
随着Internet蓬勃发展,社交平台的数据不断增长,用户从海量数据中获取信息的难度不断地增加。研究微博用户行为成为当今热点话题。用户行为和内容复杂多样。一般用户微博行为数量较低且行为呈现整体一致性,用户组织语言和表达方式不同且关注范围不一致。不少微博行为研究未能挖掘利用用户数据及背后隐藏的相关信息,预测精准率有待提高,提高预测微博行为准确率以及全面利用博文信息是当前研究热点。研究发现微博数据有如下特点:大多数用户行为数量为零,部分用户行为数量不全为零;用户的行为数量整体呈幂律分布,每个用户行为数量大致遵循聚类性。传统的朴素贝叶斯和逻辑回归算法未考虑词语间的关联,利用所有用户特征词信息求取结果时,忽略单个用户的博文特点,未考虑特征词一义多词,用户习惯用语等情况。针对微博内容及其转发、评论及点赞三种行为次数,分析微博的总体特征,提出了改进的朴素贝叶斯和改进的逻辑回归行为预测算法。采用jieba进行分词,基于TF*IDF求取微博关键词,利用LSI算法统计出微博中的一义多词,得到用户的高频特征词;采用LDA算法对微博进行分类,得到类别集合。构建对象的层次结构可作为改进的朴素贝叶斯算法和逻辑回...
【文章来源】:湖南科技大学湖南省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
017年微博活跃用户规模Fig1.2TheamountofWeibouserin2017
湖南科技大学硕士学位论文7第二章相关理论基础2.1微博文本特征挖掘2.1.1文本挖掘与机器学习1.文本挖掘存储信息的方式多种多样。人们经常使用的各类数据库,其存储形式是面向对象,属于高度结构化方式。对于一些非结构化的数据,包括评论、网页及微博等,该类数据结构有如下特点:(1)多数以文本形式存在且大规模;(2).不规则程度较高且附带噪声;(3).转化成结构数据时,会产生高维矩阵。上述特点也导致分析非结构化数据更加困难。文本挖掘(TextMining)又称文本数据挖掘,主要从待挖掘的文本数据中抽取出有价值信息并对提取的信息进行分类、聚类或回归等模式识别[15]。文本挖掘技术利用智能算法,基于案例推理、可能性推理等相关理论,并结合文字处理技术,分析大量的非结构化文本源抽取或标识概念、词语间关系,按照内容对文档进行分类,获取有用的知识和信息等[16]。文本挖掘大致步骤包括:文本预处理、特征提娶特征选择、文本表示和模式识别等。以下是文本挖掘的主要流程:图2.1文本挖掘流程图Fig2.1Processdiagramoftextmining文本挖掘应用领域广阔,主要应用在文本分类、信息抽娶关键词搜索、语音转化文本、情感分析、用户推荐和数字图书馆等多个领域。2.机器学习机器学习是人工智能的核心,涉及线性代数、统计学及算法等多学科,致力于研究如何通过计算的方法,结合经验改善系统自身性能[17]。机器学习研究的主要内容:利用计算机和数据产生模型,即“学习算法”。宗旨是让机器学会“人识别事物的方法”,基于经验数据不断学习、优化,面对新情况可提供相应的判断[18]。机器学习模仿人识别事物过程,即学习、提取特征、识别及分类的过程。
第二章相关理论基础8机器和人类思维不同,人类可根据事物特征选择分类方法,机器学习方法的选择需人工辅助。机器学习方法主要有:监督学习、半监督学习和无监督学习。(1).监督学习是根据一组已知类别的样本集合,通过调整分类器的参数,使其达到所要求性能的过程。学习过程中机器不断修改自身以达到预期效果,即根据已知推断未知。常见监督学习有分类和回归。主要算法有:NaiveBayes、SVM、决策树、KNN、神经网络及Logistic分析等;(2).半监督方法具有激励形式,分类器主要考虑如何利用少量的标注样例和大量未标注样例,以此进行训练和分类问题,即根据少量已知和大量未知内容进行分类。若机器预测结果正确,将会得到正向的激励;若机器预测结果错误,将会得到惩罚。对于具体环境,机器会考虑采取何种行动可得到正向激励最大化。代表方法有:最大期望、生成模型和图算法等。(3).无监督学习通过调整一组未知类别的样本分类器的参数,使其达到所要求性能的过程。学习过程中,数据没有被标记,机器需在未标记的数据中寻找、推断出数据之间潜在的关系,即机器自己学习。代表方法有:Apriori、FP树、K-means等。文本涉及多数算法和方法多数归于机器学习领域。图2.2机器学习流程简图Fig2.2Processdiagramoflearningmachine2.1.2文本特征表示文本分类是文本挖掘的应用方向之一,通过特定的分类算法,利用文本的内容,对文本进行自动化分类和特征表示的过程[19]。具体过程如图2.3所示
本文编号:3019740
【文章来源】:湖南科技大学湖南省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
017年微博活跃用户规模Fig1.2TheamountofWeibouserin2017
湖南科技大学硕士学位论文7第二章相关理论基础2.1微博文本特征挖掘2.1.1文本挖掘与机器学习1.文本挖掘存储信息的方式多种多样。人们经常使用的各类数据库,其存储形式是面向对象,属于高度结构化方式。对于一些非结构化的数据,包括评论、网页及微博等,该类数据结构有如下特点:(1)多数以文本形式存在且大规模;(2).不规则程度较高且附带噪声;(3).转化成结构数据时,会产生高维矩阵。上述特点也导致分析非结构化数据更加困难。文本挖掘(TextMining)又称文本数据挖掘,主要从待挖掘的文本数据中抽取出有价值信息并对提取的信息进行分类、聚类或回归等模式识别[15]。文本挖掘技术利用智能算法,基于案例推理、可能性推理等相关理论,并结合文字处理技术,分析大量的非结构化文本源抽取或标识概念、词语间关系,按照内容对文档进行分类,获取有用的知识和信息等[16]。文本挖掘大致步骤包括:文本预处理、特征提娶特征选择、文本表示和模式识别等。以下是文本挖掘的主要流程:图2.1文本挖掘流程图Fig2.1Processdiagramoftextmining文本挖掘应用领域广阔,主要应用在文本分类、信息抽娶关键词搜索、语音转化文本、情感分析、用户推荐和数字图书馆等多个领域。2.机器学习机器学习是人工智能的核心,涉及线性代数、统计学及算法等多学科,致力于研究如何通过计算的方法,结合经验改善系统自身性能[17]。机器学习研究的主要内容:利用计算机和数据产生模型,即“学习算法”。宗旨是让机器学会“人识别事物的方法”,基于经验数据不断学习、优化,面对新情况可提供相应的判断[18]。机器学习模仿人识别事物过程,即学习、提取特征、识别及分类的过程。
第二章相关理论基础8机器和人类思维不同,人类可根据事物特征选择分类方法,机器学习方法的选择需人工辅助。机器学习方法主要有:监督学习、半监督学习和无监督学习。(1).监督学习是根据一组已知类别的样本集合,通过调整分类器的参数,使其达到所要求性能的过程。学习过程中机器不断修改自身以达到预期效果,即根据已知推断未知。常见监督学习有分类和回归。主要算法有:NaiveBayes、SVM、决策树、KNN、神经网络及Logistic分析等;(2).半监督方法具有激励形式,分类器主要考虑如何利用少量的标注样例和大量未标注样例,以此进行训练和分类问题,即根据少量已知和大量未知内容进行分类。若机器预测结果正确,将会得到正向的激励;若机器预测结果错误,将会得到惩罚。对于具体环境,机器会考虑采取何种行动可得到正向激励最大化。代表方法有:最大期望、生成模型和图算法等。(3).无监督学习通过调整一组未知类别的样本分类器的参数,使其达到所要求性能的过程。学习过程中,数据没有被标记,机器需在未标记的数据中寻找、推断出数据之间潜在的关系,即机器自己学习。代表方法有:Apriori、FP树、K-means等。文本涉及多数算法和方法多数归于机器学习领域。图2.2机器学习流程简图Fig2.2Processdiagramoflearningmachine2.1.2文本特征表示文本分类是文本挖掘的应用方向之一,通过特定的分类算法,利用文本的内容,对文本进行自动化分类和特征表示的过程[19]。具体过程如图2.3所示
本文编号:3019740
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3019740.html