Web文本挖掘技术在网页推荐中的应用研究
发布时间:2023-03-29 01:13
随着科学技术的发展,目前Web成为了世界上最大的数据源。这些信息在页面上的分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。 本文主要研究Web文本挖掘技术在网站文本推荐中的应用。首先根据前人研究成果提出一种基于该技术的模型,然后按照该模型的流程依次剖析Web页面主要内容的提取、Web文本的聚类和一种改进的推荐算法。推荐算法作为模型核心,内容的提取作为文本聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究内容如下: 1,基于经典推荐模型,结合Web文本的特点,设计出一个针对网站中文本的推荐模型。 2,研究了Web页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建DOM(Document Object Model)树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。 3,Web文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 本文研究的背景
1.2 本文研究的目的与意义
1.3 Web文本挖掘概述
1.3.1 Web文本挖掘的定义
1.3.2 Web文本挖掘任务
1.3.3 Web文本挖掘的研究现状
1.4 网站推荐系统概述
1.5 本文的研究内容
1.6 本文的组织结构
2 基于Web挖掘技术的推荐原理
2.1 基于WEB挖掘技术的推荐流程
2.2 改进的推荐模块的建立
2.2.1 概述
2.2.2 推荐模型的结构
2.2.3 推荐模型的说明与分析
2.3 推荐算法概述
2.4 本章小结
3 基于网络爬虫的DOM树Web文档结构解析
3.1 WEB页面结构化的背景及相关工作
3.2 网络爬虫原理
3.2.1 工作原理及关键技术
3.2.2 网页搜索策略
3.2.3 网页分析算法
3.3 基于DOM树的页面分块
3.3.1 DOM树的定义
3.3.2 基于内容比重的DOM树页面分块
3.4 基于DOM树的网页信息提取
3.5 本章小结
4 基于WEB文本内容的聚类研究
4.1 文本聚类的一般步骤
4.2 文本特征的建模
4.3 聚类方法介绍
4.3.1 K均值算法
4.3.2 BIRCH算法
4.3.3 DBSCAN算法
4.3.4 STING算法
4.4 利用近似EMD距离精确聚类结果
4.4.1 EMD距离
4.4.2 近似EMD距离
4.4.3 基于近似EMD距离的DBSCAN改进算法
4.5 实验结果及解析
4.6 本章小结
5 基于用户的协同过滤推荐与加权关联规则相结合的推荐研究
5.1 基于用户的协同过滤推荐机制
5.2 关联规则原理
5.3 Apriori关联规则经典算法解析
5.3.1 Apriori算法描述
5.3.2 Apriori算法瓶颈
5.3.3 算法改进
5.4 基于加权关联规则的协同推荐改进算法
5.4.1 基于推荐内容的加权关联规则
5.4.2 加权关联规则生成算法
5.4.3 IWAR-CF算法
5.5 实验结果及解析
5.6 本章小结
6 全文总结与未来展望
6.1 全文总结
6.2 未来展望
致谢
参考文献
附录
本文编号:3773683
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 本文研究的背景
1.2 本文研究的目的与意义
1.3 Web文本挖掘概述
1.3.1 Web文本挖掘的定义
1.3.2 Web文本挖掘任务
1.3.3 Web文本挖掘的研究现状
1.4 网站推荐系统概述
1.5 本文的研究内容
1.6 本文的组织结构
2 基于Web挖掘技术的推荐原理
2.1 基于WEB挖掘技术的推荐流程
2.2 改进的推荐模块的建立
2.2.1 概述
2.2.2 推荐模型的结构
2.2.3 推荐模型的说明与分析
2.3 推荐算法概述
2.4 本章小结
3 基于网络爬虫的DOM树Web文档结构解析
3.1 WEB页面结构化的背景及相关工作
3.2 网络爬虫原理
3.2.1 工作原理及关键技术
3.2.2 网页搜索策略
3.2.3 网页分析算法
3.3 基于DOM树的页面分块
3.3.1 DOM树的定义
3.3.2 基于内容比重的DOM树页面分块
3.4 基于DOM树的网页信息提取
3.5 本章小结
4 基于WEB文本内容的聚类研究
4.1 文本聚类的一般步骤
4.2 文本特征的建模
4.3 聚类方法介绍
4.3.1 K均值算法
4.3.2 BIRCH算法
4.3.3 DBSCAN算法
4.3.4 STING算法
4.4 利用近似EMD距离精确聚类结果
4.4.1 EMD距离
4.4.2 近似EMD距离
4.4.3 基于近似EMD距离的DBSCAN改进算法
4.5 实验结果及解析
4.6 本章小结
5 基于用户的协同过滤推荐与加权关联规则相结合的推荐研究
5.1 基于用户的协同过滤推荐机制
5.2 关联规则原理
5.3 Apriori关联规则经典算法解析
5.3.1 Apriori算法描述
5.3.2 Apriori算法瓶颈
5.3.3 算法改进
5.4 基于加权关联规则的协同推荐改进算法
5.4.1 基于推荐内容的加权关联规则
5.4.2 加权关联规则生成算法
5.4.3 IWAR-CF算法
5.5 实验结果及解析
5.6 本章小结
6 全文总结与未来展望
6.1 全文总结
6.2 未来展望
致谢
参考文献
附录
本文编号:3773683
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3773683.html