社交网络下基于用户生成内容的搜索方法研究
发布时间:2020-06-21 04:25
【摘要】:近年来,社交网络环境下的内容检索正迅速成为最关键的搜索应用研究之一。而随着互联网和移动终端的广泛应用,搜索应用场景和用户需求表达越来越多样化,使得搜索方法的研究越发具有挑战。“用户生成内容”作为社交网络最重要的研究对象之一,由用户通过直接或者间接的形式产生,其内容包含大量的结构化、半结构化和非结构化的文本及数据,如评分、评论、用户标签等。这些信息可以一定程度上弥补检索过程文档/商品信息量的不足,且表达了用户对文档/商品的观点及看法,可用于改善结果的个性化。然而,用户生成内容的内容零散、高噪声、碎片化的特点和结构的多样性,使得传统方法很难有效利用用户生成内容,提高社交网络下的搜索效果。当前国内外研究学者在用户生成内容的使用上展开了一些研究,这些研究的应用场景主要是分类、聚类和推荐,缺乏统一的搜索应用框架;其研究对象多是用户标签,其他内容,尤其是非结构化内容常被忽略,从而丢失了很多有用的信息,忽略了不同类型用户生成内容的关联。针对社交网络环境下的搜索问题,本文根据用户生成内容的特点,将用户生成内容与搜索任务结合,针对常见的社交网络下的搜索应用开展研究。具体来说,提出由浅入深的方式,从仅考虑结构化信息,到考虑结构化与非结构化信息,再到考虑用户生成内容的语义向量表示,结合推荐思想、经典搜索模型和自然语言处理技术,分别构建三个基于用户生成内容的搜索框架。论文的主要研究内容和创新性工作如下:(1)首先,本文基于结构化的用户生成内容,提出了一种泛化的基于内容推荐的算法,将基于内容推荐方法中“推荐用户喜好商品的相似商品”推广到搜索中,为搜索用户返回初排序中排序靠前文档的相似文档,并将该算法结合传统搜索排序模型,构建重排序打分模型,收集用户标签、评分等结构化信息,设计不同的重排序打分函数,并构建统一的基于结构化信息搜索框架,使用学习排序融合重排序结果,用于社交网络中的图书/商品搜索应用,并在社会图书检索数据集上进行验证了框架的有效性。(2)其次,本文利用结构化和非结构化用户生成内容各自特点,提出了一种基于伪相关反馈技术的搜索框架。针对用户标签、评分等结构化信息,提出其内容的“语义独立性”,结合评分、传统排序得分等数字信息与标签等文本信息,将伪相关反馈的词项选择过程,融入用户生成内容包含的信息;同时,针对评论、读书笔记等非结构化文本内容,提出基于两种不同变换的词项选择模型,用于非结构化文本中提取反馈词项并加权。通过构造差异化的伪相关反馈模型,对传统排序模型的查询进行查询扩展和二次搜索排序,并构建统一的基于结构化和非结构化信息的搜索框架,使用学习排序技术将利用不同用户生成内容的伪相关反馈结果进行结合,用于三种不同的社交网络环境下的搜索,社区、实时短消息广播、电子商务,并搜集了 IMDb电影数据集、Tweet微博数据集、Taobao商品数据集以及社会图书检索数据集上进行验证了框架的有效性和鲁棒性。(3)最后,本文研究用户生成内容的语义向量表示,结合深度学习模型和自然语言处理技术,利用用户生成内容的文本及其他信息的语义向量表示,设计文本分类任务做预训练,生成社交网络环境下的复杂查询和文档内容的向量表示,并设计基于偏序关系的神经网络,用于查询和文档的匹配。同时,在应用场景的评价标准上,同时考虑查询与文档的相关性、文档的质量、文档的时效性以及返回结果包含文档的多样性四个指标,通过设计评价标准的向量表示,构建基于用户生成内容语义向量表示的搜索框架,并构建了书单搜索的数据集,验证了框架的有效性及对不同指标的适应性。
【学位授予单位】:北京科技大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.3
【图文】:
逦社交网络下基于用户生成内容的搜索方法研宄逦逡逑化和非结构化用户生成内容融入到查询中,丰富查询的表示,提出融合结构逡逑化和非结构化用户生成内容的搜索框架;(3)将结构化和非结构化用户生成逡逑内容与排序模型设计和基于文本向量表示的语义理解结合,构造用户生成内逡逑容的语义向量表示,并基于此向量表示设计排序模型,形成社交网络环境构逡逑建的神经信息检索框架。本文的主要研宄内容以及其与用户生成内容、社交逡逑网络下的信息检索之间的关系如图1-2所示,其中主要包含以下几个方面:逡逑
逡逑用户的查询深层港行一个排好序的文档列表[1]。图2-1给出了索引处理的高逡逑级构件。这些主要的组件包括文本采集、文本转换和索引创建。逡逑文腿据库逡逑三W^邋文本采集逦索引创建逡逑电子邮件、网页、f?逦,#2|逡逑闻、.备忘录、书信等逦逦w逦m,il逡逑文本转换逡逑图2-1索引处理逡逑图2-2给出了查询处理中的构件,主要的组件包括用户交互、排序和评逡逑价。用户交互组件提供了搜索用户和搜索引擎之间的接口,接收用户g㈠义辖晃饕睿⑶掖铀阉饕娴玫揭桓雠藕眯虻奈牡盗斜恚匦洛义献橹伤阉鹘峁瓜允靖没АN牡凳菘馐怯糜谏山峁男畔⒃薄E判蜃殄义霞撬阉饕嫦低车暮诵模褂么佑没Ы换プ榧玫降淖恢蟮牟檠义喜⒏菁焖髂P蜕梢桓霭凑辗种蹬藕玫奈牡盗斜怼E判虮匦胧歉咝У模蝈义衔淌奔淠谛枰泶罅康挠没Р檠
本文编号:2723507
【学位授予单位】:北京科技大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.3
【图文】:
逦社交网络下基于用户生成内容的搜索方法研宄逦逡逑化和非结构化用户生成内容融入到查询中,丰富查询的表示,提出融合结构逡逑化和非结构化用户生成内容的搜索框架;(3)将结构化和非结构化用户生成逡逑内容与排序模型设计和基于文本向量表示的语义理解结合,构造用户生成内逡逑容的语义向量表示,并基于此向量表示设计排序模型,形成社交网络环境构逡逑建的神经信息检索框架。本文的主要研宄内容以及其与用户生成内容、社交逡逑网络下的信息检索之间的关系如图1-2所示,其中主要包含以下几个方面:逡逑
逡逑用户的查询深层港行一个排好序的文档列表[1]。图2-1给出了索引处理的高逡逑级构件。这些主要的组件包括文本采集、文本转换和索引创建。逡逑文腿据库逡逑三W^邋文本采集逦索引创建逡逑电子邮件、网页、f?逦,#2|逡逑闻、.备忘录、书信等逦逦w逦m,il逡逑文本转换逡逑图2-1索引处理逡逑图2-2给出了查询处理中的构件,主要的组件包括用户交互、排序和评逡逑价。用户交互组件提供了搜索用户和搜索引擎之间的接口,接收用户g㈠义辖晃饕睿⑶掖铀阉饕娴玫揭桓雠藕眯虻奈牡盗斜恚匦洛义献橹伤阉鹘峁瓜允靖没АN牡凳菘馐怯糜谏山峁男畔⒃薄E判蜃殄义霞撬阉饕嫦低车暮诵模褂么佑没Ы换プ榧玫降淖恢蟮牟檠义喜⒏菁焖髂P蜕梢桓霭凑辗种蹬藕玫奈牡盗斜怼E判虮匦胧歉咝У模蝈义衔淌奔淠谛枰泶罅康挠没Р檠
本文编号:2723507
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2723507.html