基于上下文与面向社会媒体的信息推荐方法研究

发布时间：2019-05-15 14:53

【摘要】：随着互联网技术的发展,人们使用网络的方式发生了显著的变化。由互联网用户自身行为产生的数据量呈现爆炸性的增长。面对如此庞大的资源,使得想要为用户准确、快速地找到感兴趣的内容变得越来越有挑战性。传统的搜索引擎Yahoo! (www.yahoo.com), AltaVista (www.altavista.com)和Google (www.google.com)等是辅助人们获取信息的最普遍的工具。但是仍然不能满足不同背景、不同目的、不同时期的个性化信息需求。个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。推荐系统作为个性化服务研究领域的重要分支,通过挖掘用户与项目(user-item)的二元关系,帮助用户从大量数据中发现其可能感兴趣的项目,并生成个性化推荐以满足个性化需求。在传统的推荐系统研究中,人们往往只关注“用户-项目”之间的关联关系,很少考虑它们所处的上下文环境(如时间、地址、天气状况、情绪等等)。在许多应用场景下,仅仅依靠“用户-项目”二元关系并不能生成精确推荐。本文将上下文信息融入推荐系统,针对基于上下文的信息推荐及面向社会媒体的信息推荐领域的一些方法进行了研究,主要工作如下：1.提出一种基于查询上下文模型提取支配集的方法,保留主要特征的同时移除不相关上下文信息；在协同标记系统(folksonomy)中建立查询上下文图模型来提取用户的偏好,以改善个性化搜索的性能。2.针对个性化推荐系统的数据具有高稀疏化的特性,提出了一种基于因式分解机(Fact-orization Machines, FMs)的上下文感知电影推荐的方法,将特征的真实值(real-value)作为因式分解机的输入数据,并将上下文信息融入FMs中,同时提出一种基于上下文感知最小均方根误差的特征提取方法,旨在识别和获取那些对推荐任务确有影响的有效上下文信息,即识别和获取那些对提高推荐精确度的上下文信息。3.面对新闻整篇文档进行公众情感推荐,提出了面向在线新闻推荐系统的公众情感检测系统由三个部分组成,即：文档选择(Document selection)、词性(Part-of-speech)标注和公众情感词典的生成算法。我们将从新浪网站社会版块收集的40,897篇文章组成在线新闻的集合,用来评估本章提出的公众情感分析方法的性能。实验结果表明,该方法能够有效地选择一个符合语法规则的训练集,生成带有POS信息的公众情感词典。另外,我们对公众情感词典样本进行了定性分析,其结果表明：词典中的词汇不仅仅可以显式地表达情感,也可以隐含地表达出潜在的情感。同时,词典中的每个词的词性对于检测那些具有多义性的情感或者需要依赖上下文信息才能确定的情感取向具有一定的作用。4.在新闻推荐系统中,我们提出了一种新的词加权方法用于新事件检测。我们将特征划分为局部元素(Local element)、全局元素(Global element)和局部关联(Topical association)三部分。局部元素(Local element)用来提取每一篇文档具有识别能力的特征。全局元素(Global element)用来构建整个语料库的统计模型。此外,我们挖掘出潜在的主题用来建立局部关联(Topical association)关系。该方法不仅可以表达每篇新闻报道的唯一特性,也可以减少一词多义和多词同义对新事件检测带来的影响。另外,在我们提出的词加权方法中应用了两种特征降维的方法。实验结果表明,我们的方法不仅减少了冗余的特征,同时也提高了新事件检测的性能。
[Abstract]:......
【学位授予单位】：复旦大学
【学位级别】：博士
【学位授予年份】：2014
【分类号】：TP391.3

【参考文献】