一种基于用户聚合的双词主题模型及其在短文本推荐中的应用研究
本文关键词:一种基于用户聚合的双词主题模型及其在短文本推荐中的应用研究 出处:《南京大学》2016年硕士论文 论文类型:学位论文
【摘要】:近年来,随着互联网与智能移动设备的快速发展,以Twitter,微博等为代表的社交媒体应用变得越来越受欢迎,个人网站,博客,社交网站等应用每天会产生大量的信息,导致了严重的信息过载问题,用户很难在大量产生的信息中找到自己感兴趣的内容。文本推荐,可针对不同用户的具体情况给用户推荐满足其喜好的文本信息,成为了解决信息过载问题的有效途径。传统的文本研究方法主要集中于长文本,无法很好地适用于这类短文本的情境。为了在大量产生的信息中找到用户感兴趣的内容,我们分析了社交媒体应用中产生的信息的特殊性,提出了一种基于用户聚合的双词主题模型,能够有效分析短文本主题且进行推荐。本文的具体贡献如下:1.提出了一个基于主题模型的短文本推荐框架,利用用户聚合的双词主题模型,既解决了用户偏好获取的问题,又较好地解决了新文本的主题分析问题,并利用用户偏好与文本主题相似性来实现个性化的排序。2.提出基于用户聚合的双词主题模型UBTM,能够有效获取用户偏好和单词的主题分布,达到短文本主题分析的目的。同时提出了基于Gibbs采样的UBTM模型参数估计办法,并给出短文本主题的推断方案。3.提出了一个短文本推荐系统,利用UBTM技术从用户转发或者发表的文本中获得用户偏好和短文本主题分布,最终从新文本中对用户进行TopN推荐。我们在微博和Twitter的真实数据集上进行实验,定性和定量地证明了UBTM模型具有更好的推荐效果。4.最后我们实现了一个微博原型推荐系统,初步验证了上述技术和方法的合理性。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
3 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
3 杨名阳;基于空间文本数据的k近邻连接研究[D];上海交通大学;2015年
4 李天彩;短文本信息流的会话抽取与分析技术研究[D];解放军信息工程大学;2015年
5 陈亮宇;面向微博文本的事件抽取[D];东南大学;2015年
6 许慧芳;基于全覆盖粒计算模型的文本表示和特征提取研究[D];太原理工大学;2016年
7 王炜;面向网络舆情的文本语义倾向性分类算法研究[D];河北工程大学;2016年
8 任倚天;基于支持向量机的海量文本分类并行化技术研究[D];北京理工大学;2016年
9 光顺利;基于Spark的文本分类的研究[D];长春工业大学;2016年
10 张高祥;基于SVM的文本信息过滤算法研究[D];吉林大学;2016年
,本文编号:1334949
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1334949.html