基于参与者共现分析的博文聚类研究
发布时间:2017-06-29 23:11
本文关键词:基于参与者共现分析的博文聚类研究,,由笔耕文化传播整理发布。
【摘要】:【目的】将博文参与者共现作为特征,探析其在博文聚类中的价值。【方法】两步聚类:构建不同博文参与者的共现矩阵并转化为相关矩阵,采用近邻传播(Affinity Propagation,AP)算法完成第一步聚类;将AP聚类结果的质心作为初始聚类中心,对词项进行位置加权,利用K-means算法完成博文内容的第二步聚类。【结果】综合博文参与者共现与词项位置加权的聚类算法平均准确率与纯度分别达到0.66和0.57,显著优于对比实验。【局限】本研究的主要贡献是引入参与者共现作为特征改进博文聚类效果,对于该特征甚少的博文聚类价值有限。【结论】整合词项与博文参与者特征的博文聚类显著地提高了聚类质量,两步法聚类也为K-means算法初始聚类中心的选择提供了可行的解决方案。
【作者单位】: 南京大学信息管理学院;
【关键词】: 共现分析 文本聚类 博文参与者 初始聚类中心
【基金】:国家自然科学基金面上项目“融合范式视角下的链接分析理论集成框架及其实证研究”(项目编号:71273125) 中国科学技术信息研究所合作研究项目的研究成果之一
【分类号】:TP391.1
【正文快照】: 1引言 1973年,Small[1]提出了共引理论,该理论的核心是共引能反映两篇文献在内容方面的相似性,共引关系的测度可用于揭示科学结构。其后,学者依据共现思想从作者、关键词等角度,进行了作者同被引[2]以及共词分析[3]。随着Internet的普及,Larson[4]将该思想推广到Web中开展了
【相似文献】
中国期刊全文数据库 前10条
1 乔亚男;齐勇;侯迪;;一种高稳定性词汇共现模型[J];西安交通大学学报;2009年06期
2 赵文清;侯小可;;基于词共现图的中文微博新闻话题识别[J];智能系统学报;2012年05期
3 胡明生;贾志娟;雷利利;洪流;;基于共现分析的历史自然灾害关联研究[J];计算机工程与设计;2013年06期
4 葛玲;蒋宗礼;;基于共现词查询的主题爬虫研究[J];计算机工程;2010年08期
5 孙爱珍;;语境共现词汇链的自动提取及与语篇衔接之关系(英文)[J];Chinese Journal of Applied Linguistics;2011年04期
6 陈
本文编号:499690
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/499690.html