启发式的快速个人博客聚类技术研究和实现
本文关键词:启发式的快速个人博客聚类技术研究和实现,,由笔耕文化传播整理发布。
【摘要】:博客平台作为现在人们记录分享生活的重要网络平台,对于个人来说,博客内容的正确归档描述具有重大意义,本文提出启发式的快速个人博客聚类技术,跟以往对于博客的聚类不同,本文主要针对个人特点,对于单独的个人博客进行聚类,并对聚类簇进行描述。本文根据个人博客内容特点,设计一种启发式的相似内容获取,用于用户的辅助聚类,其中相似内容获取是基于博客用户之间的相似度,本文提出一种基于用户兴趣集结合跟时间顺序密切相关的兴趣集序列的用户相似度模型,在此基础上获取相似内容。在类别描述上,本文不同于其他研究,提出一种根据自身博客平台数据的半自动化聚类簇描述方法,结合人工描述和自动描述的方法,事先利用主题提取技术提取类别源数据的主题,对其进行人工描述,然后再根据聚类簇结果的主题信息进行自动匹配,其中类别源数据来源于自身博客平台,更符合数据本身的特点。实验结果表明,在个人博客聚类场景下,启发式的快速博客聚类在准确率和召回率上都优于单纯采用聚类算法进行聚类,文中提出的结合人工描述和自动描述的聚类簇描述方法相比于传统自动描述在准确率的基础上也有更好的可读性。
【关键词】:个人博客 启发式 聚类 聚类簇描述
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-11
- 第1章 绪论11-15
- 1.1 课题背景11-13
- 1.2 本文工作13-14
- 1.3 本文组织14
- 1.4 本文小结14-15
- 第2章 相关工作15-22
- 2.1 文本聚类15-16
- 2.2 文本特征提取16-18
- 2.2.1 文档频数特征选择16-17
- 2.2.2 单词权特征选择17
- 2.2.3 单词熵特征选择17
- 2.2.4 主题特征选择17-18
- 2.3 类别描述18-20
- 2.3.1 基于统计的类别描述18-19
- 2.3.2 基于外源数据的类别描述19
- 2.3.3 基于聚类过程的类别描述19-20
- 2.4 单词相似度计算20-21
- 2.4.1 潜在语义分析方法(LSA,Latent Semantic Anslysis)20
- 2.4.2 利用本体知识计算20-21
- 2.4.3 利用大规模的语料计算21
- 2.5 本章小结21-22
- 第3章 问题描述及数据模型定义22-26
- 3.1 问题描述22-25
- 3.2 数据模型定义25
- 3.3 本章小结25-26
- 第4章 基于时间顺序兴趣集的用户相似度计算26-39
- 4.1 用户相似度模型26
- 4.2 用户相似度计算框架26-31
- 4.2.1 兴趣集相似度27-28
- 4.2.2 兴趣集序列相似度28-31
- 4.2.3 用户相似度31
- 4.3 分布式的单词相似度计算31-38
- 4.3.1 单词相似度定义32
- 4.3.2 单词相似度计算32-38
- 4.4 本章小结38-39
- 第5章 启发式的个人博客聚类39-50
- 5.1 启发式的相似内容获取39-44
- 5.1.1 类别表示源数据获取40-41
- 5.1.2 基于目标博主的相似博客获取41-44
- 5.2 综合特征生成44-46
- 5.2.1 单词熵提取文本特征44-45
- 5.2.2 基于LDA的主题特征45
- 5.2.3 综合特征45-46
- 5.3 基于博客平台数据的半自动化聚类簇描述46-49
- 5.4 本章小结49-50
- 第6章 系统设计与实现50-56
- 6.1 系统结构50-51
- 6.2 启发式数据搜索爬取模块51-52
- 6.2.1 启发式离线搜索数据爬取模块51
- 6.2.2 启发式在线搜索数据爬取模块51-52
- 6.3 类别描述求解模块52-53
- 6.4 相似词计算模块53
- 6.5 用户相似度计算模块53-54
- 6.6 聚类模块54-55
- 6.7 本章小结55-56
- 第7章 实验结果及分析56-64
- 7.1 聚类评价方法56-57
- 7.2 实验结果及结果分析57-63
- 7.2.1 启发式个人博客聚类算法的比较实验57-62
- 7.2.2 聚类簇描述的实验62-63
- 7.3 本章小结63-64
- 第8章 总结和展望64-66
- 8.1 本文主要工作和贡献64
- 8.2 未来研究工作展望64-66
- 参考文献66-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 ;个人博客有价? 无价?[J];电脑爱好者;2006年18期
2 ;个人博客&个人网站排行榜[J];互联网周刊;2009年24期
3 Nowlene;;人人都需要Myware[J];数字通信;2007年04期
4 曾来海;谢华忠;;个人博客——记者的又一阵地[J];声屏世界;2006年10期
5 小新;;Google Adsense收入 乱账细算[J];电脑爱好者;2008年12期
6 于会见;;个人博客设计刍议[J];装饰;2011年08期
7 秦轩;;全球政要掀起博客风潮[J];中国新闻周刊;2006年19期
8 ;网络[J];电脑爱好者;2008年07期
9 孙晓彦;;综论网络媒介的人际交流功能[J];科学之友;2010年12期
10 陈勇;谢雪环;成筠;;基于PHP的个人博客系统[J];福建电脑;2009年09期
中国重要报纸全文数据库 前10条
1 本报特约记者 杨剑;个人博客的谋生路[N];电脑报;2006年
2 严辉文;个人博客回避不了社会责任[N];湖北日报;2007年
3 本报记者 江毓;个人博客:盈利不是梦想[N];海峡财经导报;2006年
4 周婷;个人博客掀起商业广告潮[N];中国证券报;2007年
5 侯磊 张风虎;网上晒心情 “博客”诉心声[N];战士报;2009年
6 本报记者 雷宾建;谨防个人博客对负面信息的放大效应[N];通信信息报;2006年
7 李晓明;求职简历:新增个人博客[N];中国妇女报;2006年
8 ;X5dj,所有人的网上家园[N];中国计算机报;2006年
9 胡龙华 盛晓明 记者 徐光明;辅导员博客拓展师生沟通空间[N];中国教育报;2006年
10 陈忠群 周锋;警察开博客 架起警民连心桥[N];人民公安报;2006年
中国硕士学位论文全文数据库 前4条
1 林秋霞;启发式的快速个人博客聚类技术研究和实现[D];浙江大学;2015年
2 李艳梅;个人博客之文体特征研究[D];首都师范大学;2007年
3 闫伟光;基于Java EE的个人博客管理系统的设计和实现[D];内蒙古大学;2013年
4 尚云龙;关于网络博客系统的设计与实现[D];电子科技大学;2013年
本文关键词:启发式的快速个人博客聚类技术研究和实现,由笔耕文化传播整理发布。
本文编号:422473
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/422473.html