学习爬虫的第一天

2023-01-31 00:01:54 学习爬虫

爬虫是什么？

网络就如同蜘蛛网，而数据相当于里面的节点，爬虫如同蜘蛛，通过节点去获取蜘蛛网上的内容，获取想要的数据信息

获取网页数据方式：

1、浏览器访问——下载网页数据

2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本地

其中第二种方式就是爬虫的整体流程

首先先了解下关于网页必备知识

https和http的区别？

Http：明文显示，端口号为80

https:进行加密，添加数字证书，端口号为443

网络请求方式

GET

POST

PUT

HEAD

DELETE

PATCH

简单说下GET和POST区别

GET请求：HTPP默认的请求方式是GET；

GET请求的特点：

*没有请求体，携带数据保存在URL后面

*GET请求携带的参数必须在4k之内

*GET请求的携带的数据由于封装在URL后面，所以会暴露在浏览器地址栏中

POST请求的特点：

*有请求体，数据保存在请求体中

*上传提交的数据可以无限大

*请求体中如果存在中文，会使用URL编码！

第一次写博客，过程不太熟悉，望大神们多加指导2019-05-23

相关文章