当前位置:主页 > 社科论文 > 图书档案论文 >

融合标签与短评的豆瓣图书用户标注行为分析与主题挖掘

发布时间:2025-04-11 05:40
  目的随着互联网的快速发展与普及,社会化标注系统中积累了大量的用户生成内容,为充分利用这些资源,本文融合标签与评论文本数据对用户标注行为进行分析并对健康类图书主题进行挖掘,旨在帮助用户快速了解健康图书领域,从而准确筛选与定位所需资源,并为社会化标注系统平台优化系统结构与服务功能提供参考。方法本文运用文献调研法在整理相关文献资料的基础上提出本文的研究思路,运用自然语言处理方法对抓取到的社会化标注系统“豆瓣读书”健康类目下的图书标签与短评数据进行处理,然后运用统计学方法对用户的标签标注行为与评论标注行为进行分析,并运用LDA主题模型方法对健康类图书主题进行挖掘。结果通过分析发现:1.用户倾向于用字符长度为2~5与名词、动词、形容词这三种词性的标签对健康类图书进行标注。其中名词使用最多,动词次之,然后是形容词;2.短评的情感倾向性与星级评分相关性显著,情感倾向性与支持度、星级评分与支持度呈极弱相关;3.健康类图书主题主要分为12个。结论通过分析主要得出以下结论:1.用户更倾向于使用名词、动词词性标签标注图书的书名、作者、主题内容、类别以及个人感悟等信息,更倾向于使用形容词性标签标注对图书的评价信...

【文章页数】:39 页

【学位级别】:硕士

【部分图文】:

图1-1本文技术路线图

图1-1本文技术路线图

本文的技术路线如图1-1所示:1.6主要创新点


图3-1情感倾向性分析结果(部分)

图3-1情感倾向性分析结果(部分)

本文借助百度自然语言处理平台中的情感倾向分析技术对清洗后的短评数据进行情感倾向性分析。百度情感倾向分析技术可自动判断带有主观描述的中文文本的情感极性(分为积极、消极、中性)并给出相应的置信度。如图3-1是部分数据的情感倾向性分析结果,其中“log<sub>i</sub>d”为请求....


图4-1不同主题数量平均主题余弦相似度

图4-1不同主题数量平均主题余弦相似度

将127本图书的特征词作为数据源利用Python语言的scikit-learn机器学习工具中的LDA库进行主题抽取,LDA主题模型超参数设置为α=0.001,β=0.02,Gibbs采样迭代次数为200次,对不同主题数量测试平均主题余弦相似度以找到最优主题数目(图4-1),一般认....


图4-2 PyLDAvis主题可视化

图4-2 PyLDAvis主题可视化

(3)主题之间的关系:LDAvis的作者通过计算主题之间的JS距离得到主题间距离矩阵,然后通过多维尺度分析,提取出主成分做维度,将主题分布到二维平面上,主题之间的位置远近就代表了主题之间的接近性[42],此外,气泡有重叠表示这两个主题里的主题词有交叉。图4-3主题1PyLDAvi....



本文编号:4039594

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/4039594.html

上一篇:大学生信息素养现状调查分析与研究  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7f1b4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com