社交网络中长文本话题检测与热度预测
发布时间:2022-01-15 11:57
如今,社交网络已经成为了人们生活工作中不可缺少的一部分,而随着人们对于社交网络的依赖逐渐加深,社交网络也得到了飞速发展,人们也不再满足于推特微博那样简单灵活以短文本为主的社交方式。此时,以微信公众号为代表的长文本社交网络逐渐普及开来,人们可以通过微信公众号发布的长文本来全面细致了解身边乃至世界各地发生的一些奇闻轶事。微信公众号的出现,不仅为发布者表达关于某些事件话题的观点提供了平台,也满足了普通用户对于阅读的需求。除此以外,公众号发布者希望能够预测热门话题的趋势,并及时发现热门话题,这样可以为用户提供更好的阅读体验,也能更好地宣传自己的产品;而用户也会通过了解话题的趋势去关注一些热门话题。但是,微信公众号以微信为核心,存在着海量的用户,所以微信公众号发布者每天会发布海量的文本。如何在海量而又复杂的微信公众号文本集中检测出真实话题,同时预测话题热门的趋势与状态,是一项非常有挑战性的任务。在本文中,我们针对话题检测问题,提出了一种基于文本关键词提取、词向量嵌入、以及关键词聚类的实时话题检测模型(CEASE),同时为了使模型能够适应于海量多噪声的文本数据集,本文在此基础上进一步提出了话题的合...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
–1社交网络
第一章绪论上海交通大学硕士学位论文(a)短文本消息示意图(b)长文本消息示意图(c)长文本消息展开示意图图1–1社交网络文本消息示意图Figure1–1Thediagramofsocialnetworktextmessages的支持。这种长文本以前所未有的模式嵌入到微信这种拥有海量用户的社交网络中,使得长文本信息能够以一种强力的方式进行传播。同时,由于这种新的服务模式能够服务于广大用户群体,也使得微信公众号发布者勤于发布文章,从而进一步激发了长文本社交的爆发增长。1.2研究目的与意义面对海量而又复杂混乱的长文本数据,如果能利用数据准确实时的检测出近期内一些话题,这对于海量长文本信息的进一步研究有重大意义。对于企业而言,利用提取出的话题,可以发掘社会中近期出现的一些热门事件,了解广大用户的关注点,从而进行社会舆论分析,引导社会舆论。同时,可以针对用户进行相关话题的关键文章推荐,让用户能够对事件了解更加深入,增加用户体验度,提高用户忠诚度。对于普通用户而言,可以在海量文本数据中,快速找到自己感兴趣的内容,提高工作、生活和娱乐的效率,也能提高使用社交工具的满足感。此外,与短文本相比,长文本内容本质上更含蓄、更复杂也更混乱,这给它分析研究带来了更巨大的挑战。另外,现有基于长文本的话题分析研究大多缺乏时间效益和可扩展性,远远不能满足工业上实时性需求。现有的一些话题检测相关研究主要集中于主题模型,但是对于社交网络文本而言,文本比较复杂而又混乱,不仅包含大量的话题文章,同时也包含了大量的伪话题文章。主题模型对于如此复杂的文本集往往很难取得较好的结果,同时主题模型的参数设置也比较复杂,运算量高,难以满足实时性话题检测的需求。另外,在社交网络中,话题往往更新非常迅速,—2—
上海交通大学硕士学位论文第二章问题描述和相关工作技术相关的方法集合,主要是实现将词语映射到实数域向量中,使得其他任务能够更简便进行计算。在研究初期,研究者们一般都会使用独热(One-Hot)编码来对词语进行向量化处理,但是这种技术产生的向量维度很高并且也会特别稀疏,如果再提取一些N元(N-Gram)特征,那么就需要更多存储空间以及更高运算设备,这对于海量文章计算来说不切合实际。随着神经网络的发展,在2013年,Mikolov等[17]提出了Word2Vec模型,通过对词语上下文的预测,来训练出语料库中所有词语的向量。Word2Vec主要是由两种形式不同的神经网络模型组成,一种是连续词袋模型(ContinuousBag-Of-Words,CBOW)模型,其神经网络结构图如图2–2a[17]所示,它利用某个词上下文的词语来预测这个词语的向量,以此训练整个语料库,得到每个词语的向量;另外一种是Skip-Gram模型,其神经网络结构图如图2–2b[17]所示,它通过某个词语来预测其上下文的词语向量,得到所有词语的向量。相比较于Skip-Gram模型,CBOW模型对于每个词语只需要预测一次,所以训练次数约等于语料库词语的数目,所以训练时间相对比较短。而Skip-Gram模型,每个词语都需要L次调整,其中L为窗口的大小,所以得到的词向量会相对准确一些。另外一种使用比较多的是GloVe模型[18],它基于全局中窗口内词语之间的共现关系,通过选定合适的损失函数,对全局共现关系进行降维训练,可以得到每个词语的向量。GloVe模型与Word2Vec模型在多种任务测试中,表现相当,但是GloVe模型相对运算速度更快,更适用于增量学习算法。(a)CBOW(b)Skip-Gram图2–2Word2Vec两种神经网络示意图Figure2–2TheschematicdiagramoftwoneuralnetworksinWord2Vec—13—
【参考文献】:
期刊论文
[1]Keyword Extraction Based on tf/idf for Chinese News Document[J]. LI Juanzi,FAN Qi’na,ZHANG Kuo Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China. Wuhan University Journal of Natural Sciences. 2007(05)
本文编号:3590578
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
–1社交网络
第一章绪论上海交通大学硕士学位论文(a)短文本消息示意图(b)长文本消息示意图(c)长文本消息展开示意图图1–1社交网络文本消息示意图Figure1–1Thediagramofsocialnetworktextmessages的支持。这种长文本以前所未有的模式嵌入到微信这种拥有海量用户的社交网络中,使得长文本信息能够以一种强力的方式进行传播。同时,由于这种新的服务模式能够服务于广大用户群体,也使得微信公众号发布者勤于发布文章,从而进一步激发了长文本社交的爆发增长。1.2研究目的与意义面对海量而又复杂混乱的长文本数据,如果能利用数据准确实时的检测出近期内一些话题,这对于海量长文本信息的进一步研究有重大意义。对于企业而言,利用提取出的话题,可以发掘社会中近期出现的一些热门事件,了解广大用户的关注点,从而进行社会舆论分析,引导社会舆论。同时,可以针对用户进行相关话题的关键文章推荐,让用户能够对事件了解更加深入,增加用户体验度,提高用户忠诚度。对于普通用户而言,可以在海量文本数据中,快速找到自己感兴趣的内容,提高工作、生活和娱乐的效率,也能提高使用社交工具的满足感。此外,与短文本相比,长文本内容本质上更含蓄、更复杂也更混乱,这给它分析研究带来了更巨大的挑战。另外,现有基于长文本的话题分析研究大多缺乏时间效益和可扩展性,远远不能满足工业上实时性需求。现有的一些话题检测相关研究主要集中于主题模型,但是对于社交网络文本而言,文本比较复杂而又混乱,不仅包含大量的话题文章,同时也包含了大量的伪话题文章。主题模型对于如此复杂的文本集往往很难取得较好的结果,同时主题模型的参数设置也比较复杂,运算量高,难以满足实时性话题检测的需求。另外,在社交网络中,话题往往更新非常迅速,—2—
上海交通大学硕士学位论文第二章问题描述和相关工作技术相关的方法集合,主要是实现将词语映射到实数域向量中,使得其他任务能够更简便进行计算。在研究初期,研究者们一般都会使用独热(One-Hot)编码来对词语进行向量化处理,但是这种技术产生的向量维度很高并且也会特别稀疏,如果再提取一些N元(N-Gram)特征,那么就需要更多存储空间以及更高运算设备,这对于海量文章计算来说不切合实际。随着神经网络的发展,在2013年,Mikolov等[17]提出了Word2Vec模型,通过对词语上下文的预测,来训练出语料库中所有词语的向量。Word2Vec主要是由两种形式不同的神经网络模型组成,一种是连续词袋模型(ContinuousBag-Of-Words,CBOW)模型,其神经网络结构图如图2–2a[17]所示,它利用某个词上下文的词语来预测这个词语的向量,以此训练整个语料库,得到每个词语的向量;另外一种是Skip-Gram模型,其神经网络结构图如图2–2b[17]所示,它通过某个词语来预测其上下文的词语向量,得到所有词语的向量。相比较于Skip-Gram模型,CBOW模型对于每个词语只需要预测一次,所以训练次数约等于语料库词语的数目,所以训练时间相对比较短。而Skip-Gram模型,每个词语都需要L次调整,其中L为窗口的大小,所以得到的词向量会相对准确一些。另外一种使用比较多的是GloVe模型[18],它基于全局中窗口内词语之间的共现关系,通过选定合适的损失函数,对全局共现关系进行降维训练,可以得到每个词语的向量。GloVe模型与Word2Vec模型在多种任务测试中,表现相当,但是GloVe模型相对运算速度更快,更适用于增量学习算法。(a)CBOW(b)Skip-Gram图2–2Word2Vec两种神经网络示意图Figure2–2TheschematicdiagramoftwoneuralnetworksinWord2Vec—13—
【参考文献】:
期刊论文
[1]Keyword Extraction Based on tf/idf for Chinese News Document[J]. LI Juanzi,FAN Qi’na,ZHANG Kuo Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China. Wuhan University Journal of Natural Sciences. 2007(05)
本文编号:3590578
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3590578.html
最近更新
教材专著