你需要这些:Python3.x爬虫学习资料整理

2020-06-19 00:00:00 数据 爬虫 如果你 采集 整理
之前整理过很多的有关于Python的学习资料,都是有关于Python2.x的资料。我们都知道Python3.x已经存在很长一段时间了:3.x改进了的标准库模块、安全性以及bug修复。随着3.x不断的更新以及不断壮大,很多人逐渐的从2.x转向3.x

上一篇文章已经整理介绍了基本的Python3.x的学习资料,按照上一篇后挖下的坑,今天将进行整理一些Python3.x关于爬虫方面的学习资料。

  • 如果你还在使用Python2.x你可以仔细阅读一下这篇文章

Python3.x基础学习资料整理

  • 如果你想学习Python2.x大环境下的Python爬虫,推荐这篇文章

如何学习Python爬虫[入门篇]? - 知乎专栏

(一)Python3爬虫入门(来自博客:零基础自学用Python 3开发网络爬虫)

很适合什么都不会的小白入门,如果你之前做过请跳过此教程

用Python 3开发网络爬虫(一)

Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha

Python 3开发网络爬虫(三): 伪装浏览器君

Python 3开发网络爬虫(四): 登录

Python 3开发网络爬虫(五): 使用第三方模块快速抓取与解析

(二)熟练的掌握Requests库(用Python3开发爬虫 · GitBook)

如果你还在使用urllib,赶紧快来使用requests库吧!

3.2 使用requests · 利用Python3开发爬虫

3.2.1 安装requests

3.2.2 requests的基本使用

3.2.3 requests的使用

3.2.4 requests的Request对象使用

(三)以上的教程比较零散,如果你想要系统的学习一下Python3爬虫,建议阅读一下这本书


建议买本书,当然如果你想看电子版,这里也有:

Python网络数据采集.pdf - 下载频道 - CSDN.NET

上面的下载可能需要3个积分,如果你没有积分,可以关注专栏的公众号(路人甲TM)回复关键词:“采集” ,获得一个免费的高清pdf版本。更多编程资源,关注此公众号。

这本书以Python3为基础,系统的讲解了Python3爬虫基本的方案。

部分 创建爬虫 阅读
第 1 章 初见网络爬虫 阅读
第 2 章 复杂 HTML 解析
第 3 章 开始采集
第 4 章 使用 API
第 5 章 存储数据
第 6 章 读取文档
第二部分 数据采集
第 7 章 数据清洗
第 8 章 自然语言处理
第 9 章 穿越网页表单与登录窗口进行采集
第 10 章 采集 JavaScript
第 11 章 图像识别与文字处理
第 12 章 避开采集陷阱
第 13 章 用爬虫测试网站
第 14 章 远程采集
附录 A Python 简介
附录 B 互联网简介
附录 C 网络数据采集的法律与道德约束

相关文章