基于机器学习的社交网络信息过滤及推荐系统实现
发布时间:2021-10-20 16:55
随着互联网的飞速发展,信息传递的即时性、共享性得到了大幅度提升,人们的社交方式逐步从线下向线上迁移,线上社交网络以其广大的用户群体、开放的信息传播等特性成为了人们社交的新领域。每天社交网络上产生的数据高达PB级,过量的数据信息导致社交网络面临着信息噪声以及信息过载的问题。即社交网络上存在一些无用信息,且用户无法立刻找到感兴趣的内容,严重影响了用户的社交体验。针对此问题,本文从两个方面来进行解决。一方面,针对信息噪声的问题,本文研究了信息过滤系统的相关技术,其中基于机器学习的信息过滤方法具有准确率高、速度快等优点,但该类方法只利用了互信息等表面词特征,文本特征提取方式单一,且忽略了噪声信息的类间差异性。针对此问题,本文提出了一种改进的基于机器学习的信息过滤算法。即对噪声信息进行精准分类,根据不同的语言使用和分布形式将噪声信息分为四类,每个种类针对性地使用不同的分类器模型,并且将表面词特征与深度学习语义词向量特征相融合,丰富了文本特征表达。经实验证明,本文提出的方法在豆瓣数据上获得了较好的过滤效果。另一方面,针对信息过载的问题,本文研究了信息推荐系统的相关技术,其中基于机器学习的协同过滤推...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-4基于Bagging的集成学习框架??Bagging算法的伪代码:??
能力较强[53]。基于Bagging的集成学习算法包括有随机森林等,从训练集中进行??子抽样获得每个基模型使用的子训练集,然后对所有基模型预测的结果进行综合,??产生最终的预测结果,流程如图2-4所示。??广册箱參\????卜预测???>?子调练粜i??基模si?i?,>?"H????子训练集2???[Si型2?4?????-?-??X?Y?.?综合^????蠢??????-Mill????子训练集n???基模型n?j?¥
征出现频率不会太高,仅出现1次的情况较多,也就是TF的结果为1,因此TF-??IDF的值近似等于IDF的值,可以用IDF的值来代替TF-IDF的值。对文本全集??计算统计1DF的值,全集包括全部种类的噪声文本和正常文本,图3-3显示了??IDF权重分布。??IDF权重分布??8000???000??6C00??4C00??■??2_??q??????Mmmhmhmi??IDF{?i??1?,:2?*3?廳4?編5?鼸7?_S???〇?*?1(>??图3-3数据集文本特征IDF权重分布图??由图3-3可知,IDF的值分布较为集中,IDF值高的结果较多。出现此结果??的主要原因应为文本数据过于稀疏,包含特征词x的文本数量较少,即分母??过小,则导致结果较高。实验结果表明如果使用TF-IDF作为文本特征选择的方??法,选择出的词汇并不能有效地区分文本。因此本文将尝试另外一种方法,针对??社交网络信息长度短、稀疏性等特点,选择布尔权重作为特征选择方法。在传统??的文本分类工作中,布尔模型太过简单,不能起到区别普通常用词和特殊词的作??用
【参考文献】:
期刊论文
[1]一种结合主题模型的推荐算法[J]. 曹占伟,胡晓鹏. 计算机应用研究. 2019(06)
[2]个性化推荐系统冷启动问题研究[J]. 王春才,邢晖,李英韬. 现代计算机(专业版). 2015(29)
[3]支持向量机核函数选择研究与仿真[J]. 梁礼明,钟震,陈召阳. 计算机工程与科学. 2015(06)
[4]LDA-CF:一种混合协同过滤方法[J]. 廉涛,马军,王帅强,崔超然. 中文信息学报. 2014(02)
[5]基于神经网络的文本倾向性分析系统的研究[J]. 佘正炜,钱松荣. 微型电脑应用. 2011(12)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[7]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[8]协同过滤系统项目冷启动的混合推荐算法[J]. 郭艳红,邓贵仕. 计算机工程. 2008(23)
[9]基于监督学习的中文情感分类技术比较研究[J]. 唐慧丰,谭松波,程学旗. 中文信息学报. 2007(06)
[10]基于项目评分预测的协同过滤推荐算法[J]. 邓爱林,朱扬勇,施伯乐. 软件学报. 2003(09)
本文编号:3447270
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-4基于Bagging的集成学习框架??Bagging算法的伪代码:??
能力较强[53]。基于Bagging的集成学习算法包括有随机森林等,从训练集中进行??子抽样获得每个基模型使用的子训练集,然后对所有基模型预测的结果进行综合,??产生最终的预测结果,流程如图2-4所示。??广册箱參\????卜预测???>?子调练粜i??基模si?i?,>?"H????子训练集2???[Si型2?4?????-?-??X?Y?.?综合^????蠢??????-Mill????子训练集n???基模型n?j?¥
征出现频率不会太高,仅出现1次的情况较多,也就是TF的结果为1,因此TF-??IDF的值近似等于IDF的值,可以用IDF的值来代替TF-IDF的值。对文本全集??计算统计1DF的值,全集包括全部种类的噪声文本和正常文本,图3-3显示了??IDF权重分布。??IDF权重分布??8000???000??6C00??4C00??■??2_??q??????Mmmhmhmi??IDF{?i??1?,:2?*3?廳4?編5?鼸7?_S???〇?*?1(>??图3-3数据集文本特征IDF权重分布图??由图3-3可知,IDF的值分布较为集中,IDF值高的结果较多。出现此结果??的主要原因应为文本数据过于稀疏,包含特征词x的文本数量较少,即分母??过小,则导致结果较高。实验结果表明如果使用TF-IDF作为文本特征选择的方??法,选择出的词汇并不能有效地区分文本。因此本文将尝试另外一种方法,针对??社交网络信息长度短、稀疏性等特点,选择布尔权重作为特征选择方法。在传统??的文本分类工作中,布尔模型太过简单,不能起到区别普通常用词和特殊词的作??用
【参考文献】:
期刊论文
[1]一种结合主题模型的推荐算法[J]. 曹占伟,胡晓鹏. 计算机应用研究. 2019(06)
[2]个性化推荐系统冷启动问题研究[J]. 王春才,邢晖,李英韬. 现代计算机(专业版). 2015(29)
[3]支持向量机核函数选择研究与仿真[J]. 梁礼明,钟震,陈召阳. 计算机工程与科学. 2015(06)
[4]LDA-CF:一种混合协同过滤方法[J]. 廉涛,马军,王帅强,崔超然. 中文信息学报. 2014(02)
[5]基于神经网络的文本倾向性分析系统的研究[J]. 佘正炜,钱松荣. 微型电脑应用. 2011(12)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[7]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[8]协同过滤系统项目冷启动的混合推荐算法[J]. 郭艳红,邓贵仕. 计算机工程. 2008(23)
[9]基于监督学习的中文情感分类技术比较研究[J]. 唐慧丰,谭松波,程学旗. 中文信息学报. 2007(06)
[10]基于项目评分预测的协同过滤推荐算法[J]. 邓爱林,朱扬勇,施伯乐. 软件学报. 2003(09)
本文编号:3447270
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3447270.html