基于跨媒体语义特征的在线社交网络国民安全信息搜索研究
发布时间:2020-08-15 16:21
【摘要】:随着社交网络用户群体的日益扩大,社交网络中每天产生的数据也越来越多,社交网络中的数据往往存在着噪声性、多样性及语义稀疏性等问题。针对社交网络数据存在的上述问题,本文对社交网络跨媒体时空特性数据的感知获取、社交网络跨媒体数据的语义提取建模,社交网络数据跨媒体语义搜索进行研究,最终实现了基于跨媒体语义特征的在线社交网络国民安全信息搜索系统。论文完成的主要工作如下:(1)在社交网络跨媒体时空特性数据的感知获取方面,针对社交网络数据广泛存在的噪声性、多样性问题,提出了一种社交网络国民安全时空特性数据获取方法。通过建立国民安全关键词词库,对社交网络跨媒体数据进行组织获取,过滤社交网络数据中存在的噪声信息,对社交网络跨媒体有效数据进行存储。通过提取社交网络对象时间信息、空间位置信息、用户状态信息等,对社交网络国民安全跨媒体数据的时空特性进行感知与获取。(2)在社交网络跨媒体数据的语义提取建模方面,针对社交网络数据存在模态形式多样以及语义稀疏性的特点,提出了基于时空主题词嵌入的文本语义建模算法(STTE)和时空跨媒体语义关联建模算法(STECM)。对于社交网络中的文本数据,结合数据的时空特性,对文本的时间信息和地理空间信息进行建模,通过结合语料数据中的全局和局部上下文信息,充分挖掘文本上下文之间的关联,获得最准确的特征,与传统的主题概率模型相比分类准确率提高了12.7%,与传统词嵌入模型相比分类准确率提高了9.2%。对于社交网络中的图像数据,通过卷积神经网络提取图像的深度特征,对图像数据的视觉特征进行抽象学习,获得图像的深度特征表示,并使用跨模态关联映射函数建立跨媒体数据间的语义映射关系,关联后的跨模态特征在社交网络国民安全数据上的分类性能提高了6.9%。(3)在社交网络数据跨媒体语义搜索方面,针对社交网络数据的多样性和噪声性问题,提出了基于深度随机游走的跨媒体语义关联映射算法(DWM),通过挖掘社交网络数据间的深度语义关联,实现了跨媒体语义关联映射。提出了基于语义扩展和深度哈希网络的社交网络跨媒体搜索算法(DHCS)。结合语义信息扩展和哈希编码,在社交网络跨模态搜索场景下,MAP指标与传统跨媒体空间搜索算法相比提高了13.1%,PR曲线指标相比对比算法提高了21.2%。(4)设计并实现了基于跨媒体语义特征的在线社交网络国民安全信息搜索系统。系统包括社交网络国民安全数据感知获取模块、社交网络国民安全数据特征提取建模模块,以及社交网络国民安全数据跨媒体语义空间搜索模块,实现了社交网络跨媒体国民安全信息的搜索。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP309
【图文】:
最早起源于概率隐性语义分析算法(pLSA),概率隐性语义分析算法由逡逑Thomas邋Hofmann提出,对于数据集中的任意文档,pLSA假设都是通过一下规则逡逑生成的,如图2-1所示,首先根据文档分布/Y0选择当前文档之,从文档的逡逑条件概率主题分布AzJO中抽取一个主题作为当前文档的主题,根据被逡逑抽取主题的主题单词条件概率分布选取一个单词%加入到文档中,逡逑最后重复单词选取过程,直至生成当前文档之中包含的所有单词,重复选取文逡逑档的过程,以生成语料中的全部文档。逡逑假定语料中所有文档符合上述生成过程,为得到训练语料的主题分布情况,逡逑pLSA通常使用最大期望算法(EM)对隐含的主题概率分布户(&邋|0和P(w?邋|z,)逡逑进行求解,最大期望算法的基本思想为,首先将待估计的概率分布RzJO和逡逑进行随机初始化
逑由DavidBlei提出,与pLSA算法相比,LDA算法对两个待估计的主题概率分布逡逑矩阵引入了贝叶斯先验,其生成过程为如图2-2所示。逡逑O逡逑逦邋M逡逑图2-2邋LDA算法生成过程逡逑具体的生成过程如下:逡逑(1)
如式(2-2)所示,其中W为给定的单词序列,目标函数为平均对数概率,C为提前制定的目标单词上下文的大小总数。逡逑I(Z))=T7ZZlo§PrK邋lw/)^邋/=1邋ceC,逡逑使用了如式(2-3)所示的Soft-max函数,为当前目标单文单词。模型通过随机梯度下降法进行训练,训练完成的参数来对目标单词进行表示。逡逑PrWW,>邋£=二.)走技术逡逑数据中有众多图结构的数据,如社交网络用户关注关系、
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP309
【图文】:
最早起源于概率隐性语义分析算法(pLSA),概率隐性语义分析算法由逡逑Thomas邋Hofmann提出,对于数据集中的任意文档,pLSA假设都是通过一下规则逡逑生成的,如图2-1所示,首先根据文档分布/Y0选择当前文档之,从文档的逡逑条件概率主题分布AzJO中抽取一个主题作为当前文档的主题,根据被逡逑抽取主题的主题单词条件概率分布选取一个单词%加入到文档中,逡逑最后重复单词选取过程,直至生成当前文档之中包含的所有单词,重复选取文逡逑档的过程,以生成语料中的全部文档。逡逑假定语料中所有文档符合上述生成过程,为得到训练语料的主题分布情况,逡逑pLSA通常使用最大期望算法(EM)对隐含的主题概率分布户(&邋|0和P(w?邋|z,)逡逑进行求解,最大期望算法的基本思想为,首先将待估计的概率分布RzJO和逡逑进行随机初始化
逑由DavidBlei提出,与pLSA算法相比,LDA算法对两个待估计的主题概率分布逡逑矩阵引入了贝叶斯先验,其生成过程为如图2-2所示。逡逑O逡逑逦邋M逡逑图2-2邋LDA算法生成过程逡逑具体的生成过程如下:逡逑(1)
如式(2-2)所示,其中W为给定的单词序列,目标函数为平均对数概率,C为提前制定的目标单词上下文的大小总数。逡逑I(Z))=T7ZZlo§PrK邋lw/)^邋/=1邋ceC,逡逑使用了如式(2-3)所示的Soft-max函数,为当前目标单文单词。模型通过随机梯度下降法进行训练,训练完成的参数来对目标单词进行表示。逡逑PrWW,>邋£=二.)走技术逡逑数据中有众多图结构的数据,如社交网络用户关注关系、
【相似文献】
相关期刊论文 前10条
1 王超琼;陈s
本文编号:2794355
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2794355.html