当前位置:主页 > 管理论文 > 移动网络论文 >

社交媒体短文本在线聚类方法研究

发布时间:2020-07-25 20:30
【摘要】:短文本是互联网中常见的内容形式,如社交媒体文本、广告关键字、观点评论、网页标题、搜索查询等。社交媒体的短文本在线聚类是指对社交媒体的短文本流式数据进行实时增量聚类,有利于海量新闻数据的分类整理和自动摘要,对舆情分析、灾难预警和事件检测等有重要意义。社交媒体短文本以文本流的形式快速产生,通常数据量十分庞大。同时社交媒体文本具有表述不规范、存在大量错误、文本内容简短等特点。传统文本聚类方法从词本身角度构建特征进行聚类,无法应用于高噪声、高稀疏性的社交媒体短文本聚类,同时也缺乏对流式文本数据聚类的解决方案。为此,本文主要从短文本相似度度量和在线聚类方法两个方面开展研究,主要贡献概括如下两个方面:(1)提出了多属性融合的社交媒体短文本相似度度量方法。该方法针对社交媒体文本长度短、信息匮乏的数据特点,作者利用词性识别技术和命名实体识别技术丰富和扩展了传统的向量空间模型,为了弥补向量空间模型在处理复杂语义上的不足,作者利用主题模型开发了一套短文本主题向量推断技术,用以识别文本中的相关词汇之间的联系。同时,利用社交媒体平台上的实体、时间、地理位置信息等其他信息,补充事件要素。最后把三种方法有机组合,组合方法在短文本相似度评价任务上准确率高于传统的文本相似度评价方法。(2)提出了基于标签传播的在线聚类方法BatchLPA。该方法针对传统的流式数据聚类方法SinglePass事件召回率偏低、参数设置复杂的缺点,与SinglePass不同,BatchLPA不再是简单的把新文本加入最相似的簇,而是保留新文本与所有簇的相似度网络,再使用简洁快速的社团划分方法标签传播算法,对相似度网络中的簇和文本进行划分和聚合。这种巧妙的方式间接的对历史数据以极小的代价进行了第二次处理,减少了信息的损失。实验证明,BatchLPA不仅簇的质量令人满意,而且簇的数量比SinglePass更加合理,算法性能对参数的依赖性更弱。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.09
【图文】:

社交媒体短文本在线聚类方法研究


推特界面图

【相似文献】

相关期刊论文 前10条

1 ;美参议员倡议禁止社交媒体页面“无限滚动”[J];中国报业;2019年15期

2 孟健;隋丽丽;;档案社交媒体推广面临的问题及对策[J];管理观察;2019年23期

3 埃斯特·凯泽亚·索普;张建中;;全球社交媒体发展的五个趋势[J];青年记者;2019年22期

4 刘昱廷;;社交媒体中的政治参与——以美国为例[J];视听;2019年09期

5 傅春长;;大学生手机社交媒体依赖与抑郁的关系:友谊质量的中介作用[J];吉林广播电视大学学报;2019年09期

6 张霆;;移动互联网时代大学生社交媒体使用状况及其引导方略[J];华北理工大学学报(社会科学版);2019年05期

7 罗文;;社交媒体时代的广告创新趋势[J];视听;2019年10期

8 宣长春;林升栋;;社交媒体使用对广告态度影响的倒U形模式研究[J];现代传播(中国传媒大学学报);2019年09期

9 ;社交媒体的商业模式与价值实现[J];财务与会计;2019年14期

10 万凯莉;;社交媒体信息全民参与保存模式研究[J];中国档案研究;2015年00期

相关会议论文 前10条

1 刘东;;社交媒体研究的十年回顾:2007-2017[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年

2 ;社交媒体正在成为科学的挑战?——美国反氟化物危机带来的启示[A];科学媒介中心2015年推送文章合集(上)[C];2016年

3 杨婉悌;;社交媒体时代下档案信息与文化的传播应用[A];创新:档案与文化强国建设——2014年全国档案工作者年会优秀论文集[C];2014年

4 乔诗绮;马静;刘康昱;王明辉;;社交媒体使用行为对员工工作绩效的影响[A];第二十一届全国心理学学术会议摘要集[C];2018年

5 刘宇初;周庆山;;图博档等公共服务机构社交媒体服务融合模式的构建[A];中国图书馆学会年会论文集(2016年卷)[C];2016年

6 施蓓琦;王丽鲲;田冬迪;王冕;;基于社交媒体地理数据挖掘的游客时空行为特征分析[A];卫星导航定位与北斗系统应用2017——深化北斗应用 开创中国导航新局面[C];2017年

7 梁君健;;营销与秩序:社交媒体时代的电影言论规范[A];影博·影响(2016年第07期 2016年合订本下 总第103期)[C];2016年

8 "基于社交媒体的科普轻游戏设计开发"课题组;郝倩倩;;基于社交媒体的科普轻游戏设计开发研究报告[A];科技馆研究报告集(2006-2015)下册[C];2017年

9 刘传江;覃艳丽;李雪;;网络社交媒体使用、社会资本积累与新时代农业转移人口的城市融合——基于六市1409个样本的调查[A];中国经济发展:改革开放40年与新时代——第十二届中华发展经济学年会会议论文摘要集[C];2018年

10 王熠;史铭;;海外社交媒体新闻传播分析系统的原理与实践[A];中国新闻技术工作者联合会2017年学术年会论文集(学术论文篇)[C];2017年

相关重要报纸文章 前10条

1 廖海金;让食品安全谣言止于“治者”[N];中国食品安全报;2016年

2 本报驻波士顿记者 侯丽;社交媒体对新闻的控制权过大[N];中国社会科学报;2019年

3 蕊睐 编译;一名社交媒体编辑的“生意经”[N];中国青年报;2012年

4 本报记者 操秀英;社交媒体炒旧闻:《科学》子刊称中药致癌[N];科技日报;2018年

5 本报记者 杜海川;中期选举前,美社交媒体风声鹤唳[N];环球时报;2018年

6 金惠真;韩社交媒体查出大量自杀自残图片[N];环球时报;2018年

7 记者 刘海英;社交媒体使用越多可能越感孤独[N];科技日报;2019年

8 平顶山学院新闻与传播学院副教授 朱述超;反思灾难影像的社交媒体传播[N];社会科学报;2019年

9 本报见习记者 陈瑜;“蜜月期”过后,社交媒体将何去何从[N];文汇报;2019年

10 陈立峰 广东第二师范学院中文系教师 包晓梅 广东第二师范学院中文系学生;点赞:社交媒体新表达[N];语言文字报;2019年

相关博士学位论文 前10条

1 漆舒汉;社交媒体中品牌实体信息检索方法研究[D];哈尔滨工业大学;2018年

2 刘培磊;社交媒体热点检测与追踪技术研究[D];国防科学技术大学;2016年

3 王静;基于社交媒体评论的客户需求分析[D];哈尔滨工业大学;2017年

4 朱江;社交媒体的实时分享对消费者就餐体验和品牌评价的影响及内在机制研究[D];中国科学技术大学;2018年

5 张婧;面向中文社交媒体语料的词法分析研究[D];大连理工大学;2018年

6 王亚坤;基于机器学习的社交媒体文本分析方法研究[D];北京邮电大学;2019年

7 丁冠琪;企业社交媒体、知识分享和员工创造力[D];中国科学技术大学;2019年

8 吴艳;社交媒体信息可信度研究[D];武汉大学;2015年

9 李舒辰;社交媒体中的个性化推荐关键技术研究[D];北京邮电大学;2018年

10 何兴盛;突发事件下社交媒体用户的协同行为研究[D];中国科学技术大学;2018年

相关硕士学位论文 前10条

1 李z褝_;智力障碍体育赛事社交媒体推广研究[D];成都体育学院;2019年

2 许晓梦;网红的传播动因研究[D];长春工业大学;2019年

3 张钰莹;多方博弈中的社交媒体平台治理[D];上海社会科学院;2019年

4 陆舟;社交媒体环境下用户传播行为影响因素研究[D];上海交通大学;2017年

5 李璀;社交媒体中网络段子的传播特征研究[D];上海交通大学;2016年

6 段明月;内容感知的社交影响力建模和预测方法研究[D];吉林大学;2019年

7 魏靖涵;社交媒体中公共事件传播的“后真相”现象探析[D];吉林大学;2019年

8 安超蕊;社交媒体传播语境中的爆款现象研究[D];吉林大学;2019年

9 孙f涛

本文编号:2770328


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2770328.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f9304***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com