基于网页列表的商品信息自动提取关键技术研究
发布时间:2023-04-28 18:04
电子商务的普及使得利用电子商务进行购物的用户飞速增长,但随着网络上的商品信息越来越多,如何快速有效地从海量的商品信息中选择出用户需要的商品成为用户关心的重要问题。现有的互联网上商品信息大都是半结构化的数据,同时不同的网站数据的网站结构和提供给用户的检索接口都不一样,因而无法直接给用户提供的统一的查询接口,用户在不同网站检索相关的信息需要调用不同的网站的检索接口。为了能高速的检索出需要的信息,需要给用户提供一个统一的检索接口。为了以统一的结构化数据提供给用户,需要将网络上的半结构化的数据转化为统一结构的结构化数据,然后将结构化的数据进行索引,提供统一的检索接口给用户。 由于网页中商品信息大多是以列表的形式展示出来,列表信息所在的区域就商品信息所在的区域,列表作为信息载体具有结构一致性的特点,论文针对列表结构一致性提出了一个基于网页列表结构的全自动信息提取算法和基于机器学习的文本自动归类算。在信息抽取算法中,首先利用网站的同构性去除网页中与商品信息无关的部分,无关信息去除主要是通过将网页转化为标签树的结构,通过树比较算法,找出不同网页中相同的信息,剪去无关的信息;然后提出一种频繁序列挖掘算...
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 引言
1.2 选题背景与意义
1.3 论文工作
1.4 本章小结
第2章 网页信息抽取技术综述
2.1 国内外研究现状
2.1.1 人工信息抽取系统研究现状
2.1.2 半自动化信息抽取系统
2.1.3 自动化信息抽取系统
2.2 本章小结
第3章 系统体系结构
3.1 系统总体架构
3.2 相关技术介绍
3.3 本章小结
第4章 基于网页列表的商品信息抽取算法
4.1 网页无关信息清理算法
4.2 DOM树转化为PAT树算法
4.3 重复序列提取算法
4.4 实验结果
4.5 本章小结
第5章 基于决策树的文本信息分类算法
5.1 信息过滤
5.2 信息分类
5.2.1 关联规则发现
5.2.2 决策树构造
5.2.3 实验数据
5.3 本章小结
第6章 系统实现
6.1 抽取功能模块实现
6.1.1 信息提取和处理
6.1.2 老年人商品信息检索页面
6.1.3 老年人服务平台终端
6.2 本章小结
第7章 总结和展望
7.1 总结
7.2 展望
7.2.1 改进部分
7.2.2 增加部分
参考文献
攻读硕士学位期间的主要研究成果
致谢
本文编号:3804201
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 引言
1.2 选题背景与意义
1.3 论文工作
1.4 本章小结
第2章 网页信息抽取技术综述
2.1 国内外研究现状
2.1.1 人工信息抽取系统研究现状
2.1.2 半自动化信息抽取系统
2.1.3 自动化信息抽取系统
2.2 本章小结
第3章 系统体系结构
3.1 系统总体架构
3.2 相关技术介绍
3.3 本章小结
第4章 基于网页列表的商品信息抽取算法
4.1 网页无关信息清理算法
4.2 DOM树转化为PAT树算法
4.3 重复序列提取算法
4.4 实验结果
4.5 本章小结
第5章 基于决策树的文本信息分类算法
5.1 信息过滤
5.2 信息分类
5.2.1 关联规则发现
5.2.2 决策树构造
5.2.3 实验数据
5.3 本章小结
第6章 系统实现
6.1 抽取功能模块实现
6.1.1 信息提取和处理
6.1.2 老年人商品信息检索页面
6.1.3 老年人服务平台终端
6.2 本章小结
第7章 总结和展望
7.1 总结
7.2 展望
7.2.1 改进部分
7.2.2 增加部分
参考文献
攻读硕士学位期间的主要研究成果
致谢
本文编号:3804201
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3804201.html