当前位置:主页 > 科技论文 > 自动化论文 >

面向Twitter的多用户实例关系抽取技术研究

发布时间:2020-04-08 16:31
【摘要】:社交媒体网络作为一种新型的互联网信息交流平台,在近几年内得到了迅猛地发展,越来越多的网民开始使用社交媒体分享信息,关注新闻时事,在以社交媒体为平台的基础上,构建了庞大、复杂的社交关系网络。通过对这些社交关系进行分析和总结,可以为社交媒体数据挖掘的研究提供高效结构化的数据源,并发掘出巨大的商业价值,因此研究社交媒体中用户之间的关系抽取具有重大意义。但由于社交媒体数据的复杂性和多样性,社交媒体语料与传统的新闻语料相比,用户关系特征提取更加困难,为解决这一问题,本文以Twitter这一具有代表性的网络平台作为对象,研究面向Twitter的多用户实例关系抽取技术,并提出一种基于分段卷积神经网络的深层网络模型,通过利用残差网络的特性对模型进行改进,提高关系抽取的性能。此外,由于社交媒体关系抽取数据集较少,为构造充足的实验数据集,本文还提出一种多通道数据采集框架,实现对Twitter数据的高效采集,并结合其数据特性,对数据进行噪声滤除和用户实例抽取,利用词向量技术对处理后的数据进行文本表示,将其转换为神经网络可以计算处理的数据格式,从而利用模型实现用户关系抽取。最后在上述工作基础上,设计并实现了Twitter的用户实例关系抽取系统。本文的主要工作如下:(1)实现了高效的Twitter数据采集。通过对Twitter数据采集技术的调研,根据实验需求与应用场景的需要,提出一种Twitter API与网页爬虫相结合的多通道采集框架。为保证数据源的多样性并解决采集受限的问题,提出了面向不同数据范围的采集策略,包括:基于特定用户的采集、基于关键词搜索的采集、实时采集等,保证了数据采集的高效性。(2)根据Twitter数据的特性,提出一种面向Twitter的多用户实例关系抽取模型,该模型通过对采集到的数据进行噪声滤除与用户实例抽取迭代,构造出适合实验训练和测试的样本,在此基础上利用残差网络特性构造深度卷积网络模型,从而优化关系抽取的性能,经实验表明,该模型在Twitter数据集中关系抽取的准确率与召回率均具有不错的效果。(3)设计并实现了面向Twitter的多用户实例关系抽取系统,该系统主要分为:数据采集模块、多用户实例关系抽取模块、结果展示模块。系统功能主要包括:Twitter数据采集与存储、Twitter数据噪声滤除、Twitter用户实例抽取迭代、用户关系抽取与存储、关系抽取结果展示等。经测试,该系统具有较好的性能,展示界面简单便捷,适用于实际的Twitter用户关系抽取。
【图文】:

数据格式,对象


发布推文的用户等内容,获取到的 status 对象的部分格式内容如下图 3.1所示:图3.1空status 对象的数据格式由图可知,status 对象中存在很多与本推文相关的字段,但对于用户实例关系抽取任务来说,只需要重点获得发布推文用户(screen_name),推文正文(text)等字段即可,因此需要访问 status 对象中相应的属性来获取,并构造成合适的数据格式,存入数据库中以便后续实验处理。3.2.2 网页爬虫采集技术由于官方 API 的采集限制,在获取制定用户主页推文时,每次调用接口仅能采集到 200 条推文数据,并且接口调用次数也有上限,为了能够一次性抓取足量的 Twitter数据

页面,头像,节点,模板


并利用 echarts 工具实现页面绘制,从而构建可视化关系网络图,其整体系统展示结果如下图 5.4 所示:图5.4空系统页面展示图界面设计所使用的模板为 echarts 的 graph 模板,该模板可以绘制网络关系图谱。系统的展示界面通过读取数据库中存储的用户相关信息构成的 json 格式数据,作为节点信息,将采集下载获得的 twitter 用户头像文件以用户的 screen_name 作为文件名,,其文件路径添加到相应的节点信息中,并在路径前加入“image://”的字样,这样可以让网络图中的节点显示为各个用户的 Twitter 头像,之后将用户的 screen_name 作为节点名称,用于在界面中标明不同节点所代表的 Twitter 用户,最终形成网络关系图谱的节点数据。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 张婷;;Twitter帮出海品牌讲好故事[J];现代广告;2019年13期

2 杨欣怡;;西方报纸对社交媒体Twitter的运用[J];学理论;2014年24期

3 龙君;;Twitter在大学英语大班教学中的应用[J];长春理工大学学报(社会科学版);2012年02期

4 梁少林;于贵;;基于Twitter的非正式学习研究[J];软件导刊(教育技术);2011年09期

5 李朋飞;李园园;郝建英;;基于Twitter(微博)的非正式学习探究[J];中国科教创新导刊;2011年25期

6 秦海龙;刘挺;;新浪微博与Twitter的特性对比研究[J];智能计算机与应用;2018年04期

7 李冰;汤嫣;张梓轩;;主流媒体国际传播的新特点——以新华社Twitter两会报道为例[J];新闻与写作;2015年05期

8 杨蕾;;对比Twitter,新浪微博有更大潜力[J];人民文摘;2014年05期

9 吴鼎铭;;西方新闻传播学关于新媒体与社会运动的研究现状——兼论“Twitter革命”[J];福建师范大学学报(哲学社会科学版);2013年04期

10 ;新浪微博:Twitter的中国式推进[J];商界(评论);2012年06期

相关会议论文 前7条

1 曹鹏;李静远;满彤;刘悦;程学旗;;Twitter中近似重复消息的判定方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

2 易红发;肖明;彭继春;寇娇;;Twitter英文用户眼中的中国(2006-2013)——基于主题建模和情感分析的探索[A];2014中国传播论坛:“国际话语体系与国际传播能力建设”研讨会会议论文集[C];2014年

3 黄芦雷娅;毕雪梅;甘露露;;基于Twitter平台的中国电子竞技俱乐部“影响力圈层”效应研究[A];第十一届全国体育科学大会论文摘要汇编[C];2019年

4 ;Twitter换帅 华尔街怎么看?[A];2015年国际货币金融每日综述选编[C];2015年

5 萨支欣;;微博客与图书馆[A];福建省图书馆学会2011年学术年会论文集[C];2011年

6 温俊伟;;面向Twitter的分析系统研究[A];第31次全国计算机安全学术交流会论文集[C];2016年

7 朱元锟;;Twitter在教学中的应用初探[A];计算机与教育:理论、实践与创新——全国计算机辅助教育学会第十四届学术年会论文集[C];2010年

相关重要报纸文章 前4条

1 记者 关健;三指标透视微博:市值半年两度超越Twitter[N];第一财经日报;2017年

2 胡若愚;美国被疑借Twitter插手伊朗选举争端[N];新华每日电讯;2009年

3 本报记者 申海洋;Twitter将登陆纽交所 新浪微博称“有自己的路”[N];民营经济报;2013年

4 本报见习记者 陈炜;Twitter股价暴跌超20% 美国社交平台陷流量瓶颈[N];证券日报;2018年

相关博士学位论文 前1条

1 唐李洋;基于社交媒体大数据的Twitter营销策略研究[D];合肥工业大学;2015年

相关硕士学位论文 前10条

1 唐韵;2016年Twitter英文台湾话题传播特征研究[D];上海交通大学;2018年

2 孙浩楠;面向Twitter的多用户实例关系抽取技术研究[D];西安电子科技大学;2019年

3 朱斌;基于改进的Multi-Channel CNN-LSTM模型在Twitter文本情感分析中的应用[D];河南大学;2019年

4 时聪;基于话题的Twitter用户影响力分析[D];国防科学技术大学;2016年

5 张少群;基于Twitter的情绪传染现象研究[D];福州大学;2016年

6 朱文君;Twitter情感分类及可视化的研究[D];武汉理工大学;2013年

7 高敬文;Twitter生态圈产品设计变迁的调研报告[D];复旦大学;2013年

8 侯娜咪;Twitter网微博客传播特征的研究[D];首都体育学院;2012年

9 顾贝琰;评价理论视角下Twitter语篇的态度意义研究[D];上海外国语大学;2017年

10 吴建伟;面向Twitter信息的机构名消歧技术研究[D];哈尔滨工业大学;2012年



本文编号:2619573

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2619573.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69276***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com