基于可扩展LDA模型的微博话题特征抽取研究
发布时间:2021-12-25 09:11
【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。
【文章来源】:情报科学. 2017,35(04)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
微博话题特征词条抽取方法结构图
话题数的提升,Perplexity值不断降低。因此本文选择K=50对数据集进行话题建模。由于篇幅所限,图3展示LDA话题建模后截取的6个话题内容。Perplexity(W)=expìíüyt-∑mlnp(wm)∑mNm(4)图2混杂度分布图图3话题建模部分结果图从图3中可以明显看出LDA应用于中文微博文本的话题抽取效果良好,对应的关键词准确性较高,且话题之间独立性较强。根据对应关键词可以看出Topic1和航空出行相关,Topic2和旅行相关,Topic3与苹果产品相关,Topic4与微博相关,Topic5与互联网营销相关,Topic6与汽车相关,Topic7与电影相关,Topic8与外交相关,Topic9与健康相关,Topic10与情感相关。但也可以从图3明显看出LDA只能够通过“Topic”的方式对话题命名,不具备语义内涵,因此还需要进一步处理。根据权值公式对话题所含关键词进行权值调整排序,获得对于各话题贡献度最高的前5关键词作为特征词条的候选词,弥补了LDA模型等同看待词语,无区分度的不足,也简化了特征词条的生成过程。根据信息熵值获得话题的语义内涵表示—特征词条。本文截取10个话题特征词条结果,如表5。候选关键词能够从话题下20个关键词中筛选出来对话题贡献度更大的词语,例如Topic1中的20个关键词中包含了“版、机、台、款、电脑、高、百度、推出、空间”等对于主题有混淆含义的词语,通过权值的调整有效的筛选,有助于后期特征词条的生成,“苹果-手机-产品”与20个词语的话题含义相比,更精简更具备语义内涵。但是每个主题对应一个特征词条,随数据量增大的主题数量较大时,无法从宏观上了解微博话
话题建模部分结果图
【参考文献】:
期刊论文
[1]基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 李劲,张华,吴浩雄,向军. 计算机应用. 2012(08)
[2]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[3]命名实体的网络话题K-means动态检测方法[J]. 刘素芹,柴松. 智能系统学报. 2010(02)
[4]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生. 中文信息学报. 2007(06)
[5]支持向量机(SVM)主动学习方法研究与应用[J]. 张健沛,徐华. 计算机应用. 2004(01)
本文编号:3552183
【文章来源】:情报科学. 2017,35(04)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
微博话题特征词条抽取方法结构图
话题数的提升,Perplexity值不断降低。因此本文选择K=50对数据集进行话题建模。由于篇幅所限,图3展示LDA话题建模后截取的6个话题内容。Perplexity(W)=expìíüyt-∑mlnp(wm)∑mNm(4)图2混杂度分布图图3话题建模部分结果图从图3中可以明显看出LDA应用于中文微博文本的话题抽取效果良好,对应的关键词准确性较高,且话题之间独立性较强。根据对应关键词可以看出Topic1和航空出行相关,Topic2和旅行相关,Topic3与苹果产品相关,Topic4与微博相关,Topic5与互联网营销相关,Topic6与汽车相关,Topic7与电影相关,Topic8与外交相关,Topic9与健康相关,Topic10与情感相关。但也可以从图3明显看出LDA只能够通过“Topic”的方式对话题命名,不具备语义内涵,因此还需要进一步处理。根据权值公式对话题所含关键词进行权值调整排序,获得对于各话题贡献度最高的前5关键词作为特征词条的候选词,弥补了LDA模型等同看待词语,无区分度的不足,也简化了特征词条的生成过程。根据信息熵值获得话题的语义内涵表示—特征词条。本文截取10个话题特征词条结果,如表5。候选关键词能够从话题下20个关键词中筛选出来对话题贡献度更大的词语,例如Topic1中的20个关键词中包含了“版、机、台、款、电脑、高、百度、推出、空间”等对于主题有混淆含义的词语,通过权值的调整有效的筛选,有助于后期特征词条的生成,“苹果-手机-产品”与20个词语的话题含义相比,更精简更具备语义内涵。但是每个主题对应一个特征词条,随数据量增大的主题数量较大时,无法从宏观上了解微博话
话题建模部分结果图
【参考文献】:
期刊论文
[1]基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J]. 李劲,张华,吴浩雄,向军. 计算机应用. 2012(08)
[2]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[3]命名实体的网络话题K-means动态检测方法[J]. 刘素芹,柴松. 智能系统学报. 2010(02)
[4]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生. 中文信息学报. 2007(06)
[5]支持向量机(SVM)主动学习方法研究与应用[J]. 张健沛,徐华. 计算机应用. 2004(01)
本文编号:3552183
本文链接:https://www.wllwen.com/tushudanganlunwen/3552183.html