Web文本挖掘技术在网页推荐中的应用研究

发布时间：2023-03-29 01:13

　　随着科学技术的发展,目前Web成为了世界上最大的数据源。这些信息在页面上的分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。本文主要研究Web文本挖掘技术在网站文本推荐中的应用。首先根据前人研究成果提出一种基于该技术的模型,然后按照该模型的流程依次剖析Web页面主要内容的提取、Web文本的聚类和一种改进的推荐算法。推荐算法作为模型核心,内容的提取作为文本聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究内容如下： 1,基于经典推荐模型,结合Web文本的特点,设计出一个针对网站中文本的推荐模型。 2,研究了Web页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建DOM(Document Object Model)树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。 3,Web文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距...

【文章页数】：68 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 本文研究的背景
    1.2 本文研究的目的与意义
    1.3 Web文本挖掘概述
        1.3.1 Web文本挖掘的定义
        1.3.2 Web文本挖掘任务
        1.3.3 Web文本挖掘的研究现状
    1.4 网站推荐系统概述
    1.5 本文的研究内容
    1.6 本文的组织结构
2 基于Web挖掘技术的推荐原理
    2.1 基于WEB挖掘技术的推荐流程
    2.2 改进的推荐模块的建立
        2.2.1 概述
        2.2.2 推荐模型的结构
        2.2.3 推荐模型的说明与分析
    2.3 推荐算法概述
    2.4 本章小结
3 基于网络爬虫的DOM树Web文档结构解析
    3.1 WEB页面结构化的背景及相关工作
    3.2 网络爬虫原理
        3.2.1 工作原理及关键技术
        3.2.2 网页搜索策略
        3.2.3 网页分析算法
    3.3 基于DOM树的页面分块
        3.3.1 DOM树的定义
        3.3.2 基于内容比重的DOM树页面分块
    3.4 基于DOM树的网页信息提取
    3.5 本章小结
4 基于WEB文本内容的聚类研究
    4.1 文本聚类的一般步骤
    4.2 文本特征的建模
    4.3 聚类方法介绍
        4.3.1 K均值算法
        4.3.2 BIRCH算法
        4.3.3 DBSCAN算法
        4.3.4 STING算法
    4.4 利用近似EMD距离精确聚类结果
        4.4.1 EMD距离
        4.4.2 近似EMD距离
        4.4.3 基于近似EMD距离的DBSCAN改进算法
    4.5 实验结果及解析
    4.6 本章小结
5 基于用户的协同过滤推荐与加权关联规则相结合的推荐研究
    5.1 基于用户的协同过滤推荐机制
    5.2 关联规则原理
    5.3 Apriori关联规则经典算法解析
        5.3.1 Apriori算法描述
        5.3.2 Apriori算法瓶颈
        5.3.3 算法改进
    5.4 基于加权关联规则的协同推荐改进算法
        5.4.1 基于推荐内容的加权关联规则
        5.4.2 加权关联规则生成算法
        5.4.3 IWAR-CF算法
    5.5 实验结果及解析
    5.6 本章小结
6 全文总结与未来展望
    6.1 全文总结
    6.2 未来展望
致谢
参考文献
附录

本文编号：3773683

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3773683.html

上一篇：基于OSSIM的安全运维平台的设计与实现
下一篇：第八届互联网安全大会落下帷幕

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|