基于豆瓣音乐网的数据采集与清洗
发布时间:2021-06-19 17:14
笔者基于Python设计并实现了面向豆瓣网站分类浏览下艺术家标签的数据采集及清洗系统,完成了对该标签下全部歌手及其歌曲的数据爬取和清洗。通过爬取豆瓣音乐网分类浏览下的艺术家栏目,分析豆瓣音乐的详细信息,了解当下热门音乐以及音乐人,统计音乐人的歌曲总数、评价等详细信息,并对爬取到的数据进行数据清洗,具有一定的商业价值。
【文章来源】:信息与电脑(理论版). 2019,31(18)
【文章页数】:3 页
【文章目录】:
0 引言
1 数据采集
1.1 第一层链接设计与实现
1.2 第二层链接设计与实现
1.3 应对反爬策略
1.4 数据的保存
2 数据清洗
2.1 数据清洗的作用
2.2 设计需求
2.3 具体实现
2.3.1 清洗数据
2.3.2 分组聚合
2.3.3 数据统计
3 结语
【参考文献】:
期刊论文
[1]统计调查中数据清洗的应用探讨[J]. 魏瑶. 市场研究. 2019(07)
[2]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
本文编号:3238218
【文章来源】:信息与电脑(理论版). 2019,31(18)
【文章页数】:3 页
【文章目录】:
0 引言
1 数据采集
1.1 第一层链接设计与实现
1.2 第二层链接设计与实现
1.3 应对反爬策略
1.4 数据的保存
2 数据清洗
2.1 数据清洗的作用
2.2 设计需求
2.3 具体实现
2.3.1 清洗数据
2.3.2 分组聚合
2.3.3 数据统计
3 结语
【参考文献】:
期刊论文
[1]统计调查中数据清洗的应用探讨[J]. 魏瑶. 市场研究. 2019(07)
[2]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
本文编号:3238218
本文链接:https://www.wllwen.com/wenyilunwen/mzqiyue/3238218.html