基于HLDA-IDF模型的网络文本主题挖掘研究
本文关键词: 热度 模型 主题挖掘 网络文本 文本挖掘 出处:《情报理论与实践》2017年10期 论文类型:期刊论文
【摘要】:[目的/意义]为了弥补LDA模型建模过程中未考虑到网络文本中文档关注度和质量度这一因素,并增强结果的语义可解释性和主题表示能力,文章提出了一种热度加权的HLDA-IDF的网络文本主题挖掘模型。[方法/过程]本文首先是给出了较为准确的热度定义,并对LDA模型进行热度加权,构建出了HLDA模型,再依据词汇的主题表示能力存在差异这一实际情况,引入TF-IDF算法并改进,构建出HLDA-IDF模型,最后利用实际论坛数据进行实验验证。[结果/结论]实验结果表明该模型的结果语义可解释性和主题表示能力较强。
[Abstract]:[Objective / meaning] in order to make up for the fact that the document concern and quality in the network text were not taken into account in the process of modeling the LDA model, and to enhance the semantic interpretability and topic representation of the result. In this paper, a heat weighted HLDA-IDF model for web text topic mining is proposed. [Method / process: first of all, we give a more accurate definition of heat, and build a HLDA model by weighting the heat of LDA model. Then according to the fact that there are differences in the expression ability of the topic of the vocabulary, the TF-IDF algorithm is introduced and improved, and the HLDA-IDF model is constructed. Finally, the experimental results are verified by using the actual forum data. [Results / conclusions] the experimental results show that the results of the model are interpretable in semantic terms and strong in topic representation.
【作者单位】: 南京航空航天大学经济与管理学院;
【基金】:国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123) 江苏高校哲学社会科学研究重点项目“基于超网络的江苏教育微博舆情多元意见演化模型及应用研究”(项目编号:2015ZDIXM007) 江苏省普通高校研究生科研创新计划项目“社交网络上的舆情传播模型及控制策略研究”(项目编号:KYZZ15_0104)的成果
【分类号】:TP391.1
【正文快照】: 随着互联网上文本的不断涌现,如何从丰富的文本数据中提取出精简且有价值的关键信息是目前研究的一个难点,而主题模型的提出则为解决该问题提供了一个切实可行的研究方向。首个完全意义上的主题模型是隐狄利克雷分布(Latent Dirichlet Allocation,LDA)[1]主题模型,该模型认为
【相似文献】
相关期刊论文 前10条
1 王小芳;王瑞芳;张树功;;基于最优化控制模型的文本主题域划分[J];吉林大学学报(理学版);2009年04期
2 高玮军;马栋林;张其文;;一种基于本体的文本主题提取方法研究[J];计算机应用与软件;2012年02期
3 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期
4 张其文;李明;;文本主题的自动提取方法研究与实现[J];计算机工程与设计;2006年15期
5 侯风巍;郭东军;李世磊;徐钊峰;;基于信息反馈的文本主题分类过滤方法[J];通信学报;2009年S1期
6 刘兴林;彭宏;马千里;;基于增量词集频率的文本主题词提取算法研究[J];计算机应用研究;2010年09期
7 康恺;林坤辉;周昌乐;;基于主题词频数特征的文本主题划分[J];计算机应用;2006年08期
8 刘菲;黄萱菁;吴立德;;利用关联规则挖掘文本主题词的方法[J];计算机工程;2008年07期
9 禹龙;田生伟;黄俊;;维吾尔语评论文本主题抽取研究[J];中文信息学报;2013年04期
10 李亚红;王素格;李德玉;;使用多元语义特征的评论文本主题聚类[J];计算机工程与应用;2013年02期
相关会议论文 前1条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
相关博士学位论文 前1条
1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
相关硕士学位论文 前10条
1 张文跃;基于改进shark-search算法的主题爬虫的研究与实现[D];内蒙古大学;2015年
2 梁剑;基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现[D];华南理工大学;2016年
3 吴敏;网络短文本主题聚类研究[D];华中科技大学;2015年
4 邹远航;面向短文本主题发现及分类研究[D];南京大学;2015年
5 蔡洋;基于词三角的短文本主题模型算法[D];南京大学;2017年
6 刘世群;基于词向量的短文本主题建模研究[D];吉林大学;2017年
7 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
8 蒋建慧;文本主题段落内部概念关系抽取技术研究[D];上海交通大学;2009年
9 郭剑飞;基于LDA多模型中文短文本主题分类体系构建与分类[D];哈尔滨工业大学;2014年
10 田钰琨;基于主题链的海量投诉文本主题抽取方法研究[D];东北师范大学;2012年
,本文编号:1442927
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1442927.html