当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于深度学习的社交网络跨媒体大数据搜索研究

发布时间:2020-11-11 15:59
   以微博为代表的社交网络蕴藏着大量有价值的国民安全事件舆情信息,这些信息存在于社交网络的文本、图像以及网络用户等数据中。海量跨媒体信息的出现对传统的搜索方法提出了挑战。近年来兴起的深度神经网络方法为跨媒体语义信息的提取与理解提供了新的解决方案。为了高效查找社交网络国民安全跨媒体数据包含的有价值信息,本文实现了海量数据的实时采集和搜索系统,从图像特征、文本特征、用户特征三个方面采用深度学习方法对社交网络国民安全跨媒体数据进行分析,实现精准和高效的搜索。本文完成的主要工作如下:(1)提出了社交网络跨媒体信息的实时采集与基于深度学习的特征提取算法,实现了社交网络跨媒体信息的语义特征提取。对社交网络跨媒体信息进行实时采集,并采用深度学习方法提取社交网络图像和文本信息中的语义信息,进行社交网络跨媒体信息处理。(2)提出了社交网络国民安全事件信息过滤算法,实现了对社交网络图像和文本无关信息的有效过滤。从微博的用户特征及内容特征的显式特征和隐含特征入手,构建特征向量,通过对文本和图像信息的综合分析,结合深度学习方法,实现了有效识别过滤无关信息。通过微博国民安全事件数据集上的文本分类实验,可以看出所提算法在中毒事件数据集和爆炸事件数据集上的准确率、召回率和F1值均有提局。(3)提出了社交网络跨媒体语义扩充搜索算法,实现了社交网络跨媒体信息的精准搜索。利用词嵌入来建模单词相似性表示获取的语义。使用神经语言模型学习微博文本内部的词语关联关系,挖掘微博的潜在语义信息。充分利用图像信息及跨媒体信息的共现关系,训练图像到文本的语义映射。通过平滑逆频率加权的方法,提取微博内容向量。在微博国民安全事件数据集上的跨媒体语义扩充实验及搜索实验验证了所提算法在多个数据集上的MAP、NDCG指标均优于对比算法。(4)结合以上三个方面的研究内容,设计并实现了基于深度学习的跨媒体大数据搜索系统。系统共分为三个功能模块:社交网络跨媒体信息实时采集模块、国民安全事件跨媒体特征提取与搜索模块、社交网络内容及用户特征分析模块。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.3;TP183
【部分图文】:

循环神经网络


LSTM是循环祌经网络的一个特例,使用独特的设计来克服循环神经网的梯度消失问题,使之能记住更为长期的语义信息。LSTM单元结构如图2-示,与传统循环神经网络相比区别在于通过记忆单元来控制长期记忆和短期??行为。此外新增三个控制单元输入门(i叩utgate),如式(2-1?),输出门(output),如式(2-2)和遗忘门(forget?gate),如式(2-3)来控制信息的变换与消??门是一种让信息选择式通过的方法,包含一个sigmoid层和一个逐位乘法操??/(/)?=?cr(^x(/)?+?^(/-l)?+?^c(r-l)?+?/),)?(2-1)??〇(t)-cr(Wxox(t)?+?Whoh(t-\)?+?Wcoc(t)?+?b0)?(2-2)??/(/)?=?^K4/)?+?V(/-')?+?^/c(/-1)?+?ft/)?(2-3)??

组件图,解析器,详情,去重


据预先配置的DOM区块规则解析区块内每一个详情页的链接地址,在详情页中??根据需要对页面进行浏览器渲染,然后根据预先定义的规则对特定DOM元素中??的内容进行采集。与之对应的,设计了相应的采集流程和架构,如图3-2所示。??r?-?次采集^^>???-^???I???I???根据翻页规则??采集全部内容?A#?A?^1??渲染页面js????????I???f?数据库???提取内容??\!/??I—5?1—是——??1?——??结束?j?等待时间到?-??图3-2采集节点流程??如图3-3,整个采集系统分为以下几个部分:调度器、列表页解析器、详情??页解析器、消息队列去重器和持久化组件。调度器负责启动不同节点的解析器、??去重和持久化,将采集配置内容传递给解析器,列表页解析器根据配置内容中的??起始URL对页面列表进行采集,将获得的详情页URL放入待去重队列,去重器??检查待去重队列中的URL是否已经被抓取,如果尚未被抓取则加入详情页队列,??详情页解析器从详情页队列中取得URL后根据采集规则对页面进行渲染,并对??特定字段进行定向获取,将提取到的结构化数据加入持久化队列。持久化组件从??持久化队列中获取结构化数据并保存到文档数据库。可以看到,消息队列是系统??的中枢部分

算法,效果,主题,质量


CSEWE+LDA?2.065?1.870?2.086?1.979?2.120?1.948??CSEWE+BTM?2.125?2.117?2.199?2.123?2.181?2.176??在表5-2和图5-3中,ToplO和Top20指的是主题中排在前面的词数。在表??5-2中BTM通过引入专门为短文本设计的文本的双词模型表示来提高主题质量,??因此比LDA表现更好。经过CSEWE扩充的聚类效果优于两种方法。这是因为??该方法使用了微博图像和文本的语义。跨模态信息的全面性有助于实现微博语义??的提取。当主题数量增加时,LDA的语义稀疏性将更加明显,并且生成的主题??的质量将更差。在扩展语料库之后,主题的质量得到提高,尤其是当主题数较大??时。CSEWE扩充方法可以提高两个主题模型的主题质量。????使用CSEWE方法对扩展的微博文本进行了微博内容搜索实验,并将结果与??WMD、BTM和BM25算法进行了比较。使用MAP和NDCG指标评估搜索效??果。实验结果如表5-2和图5-4所示。????表?5-3?CSEWE?的?top@N?MAP?和?NDCG?搜索结果???评价指标?MAP?NDCG??算法?@10?@20?@30?@50?@10?@20?@30?@50??BTM?0.590?
【相似文献】

相关期刊论文 前10条

1 王超琼;陈玥;;原生广告在利基社交网络中的传播策略探析[J];现代营销(信息版);2019年08期

2 张艳菊;杨明;;社交网络时代下的企业营销模式浅析[J];现代经济信息;2019年13期

3 陈健;周丽华;;大学生社交网络自我表露的实证研究[J];高校辅导员学刊;2018年06期

4 谭洪旭;袁帅;代连奇;任利峰;;浅谈社交网络对当代大学生的影响[J];产业与科技论坛;2018年24期

5 孙夏卿;;社交网络媒体对大学生赋权的价值体现[J];传播力研究;2018年31期

6 张晓飞;;以社交网络为基础的企业营销策略[J];商场现代化;2018年22期

7 孙国强;窦倩倩;张宝建;;西方社交网络研究进展与未来展望[J];情报科学;2019年02期

8 陈文泰;李卫东;;国际社交网络中“国家实在”传播与国家形象演化机制研究[J];新闻大学;2018年06期

9 孙晋;沈红;;社交网络群体性迷失现象分析[J];电脑知识与技术;2019年12期

10 邓华闯;项祎麟;周楠;周子清;;社交网络招聘有效性影响因素研究[J];中小企业管理与科技(上旬刊);2019年04期


相关博士学位论文 前10条

1 刘晓君;基于在线社交网络的口碑信息传播模型研究[D];大连理工大学;2018年

2 杜雨露;活动社交网络中上下文感知的群组推荐方法研究[D];北京邮电大学;2019年

3 寇菲菲;基于语义学习与时空特性的在线社交网络跨媒体搜索研究[D];北京邮电大学;2019年

4 李晓;在线社交网络中的影响力分析及应用研究[D];北京邮电大学;2019年

5 朱添田;基于数据驱动的移动互联网异常用户行为检测方法及其应用研究[D];浙江大学;2019年

6 王健;突发公共事件背景下在线社交网络信息扩散及治理研究[D];南京师范大学;2018年

7 唐兴;线上社交网络中用户个体行为挖掘方法研究[D];西安电子科技大学;2016年

8 陈伟;社交网络与时空数据连接的关键技术及应用研究[D];苏州大学;2018年

9 侯瑞琪;社交网络情形下线上零售商的服务投资优化研究[D];中国科学技术大学;2018年

10 聂原平;面向社交网络的文本分析关键技术研究[D];国防科学技术大学;2017年


相关硕士学位论文 前10条

1 周玉江;谣言在社交网络上的传播与控制策略研究[D];深圳大学;2018年

2 郑赫慈;网络空间中人格分析的研究与实现[D];北京邮电大学;2019年

3 毛雨;基于社交网络的用户人格分析研究与实现[D];北京邮电大学;2019年

4 石岩松;基于深度学习的社交网络跨媒体大数据搜索研究[D];北京邮电大学;2019年

5 翁羽轩;学术社交网络多媒体数据加密方案的设计与实现[D];北京邮电大学;2019年

6 薛航;基于内容和社交网络的文本推荐系统的研究与实现[D];北京邮电大学;2019年

7 汪溯;基于社交网络情感分析的股价实时预测系统的设计与实现[D];北京邮电大学;2019年

8 孙陈娜;在线社交网络中社交广告投放算法研究[D];北京邮电大学;2019年

9 李智;面向社交网络的热点商品导购算法研究[D];北京邮电大学;2019年

10 张克迪;基于文本分析的企业社交网络员工互动方式探索[D];北京邮电大学;2019年



本文编号:2879413

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2879413.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d435***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com