使用requests爬取python岗位招聘数据
爬虫目的
本文想通过爬取拉勾网Python相关岗位数据,简单梳理Requests
和xpath
的使用方法。
代码部分并没有做封装,数据请求也比较简单,所以该项目只是为了熟悉requests爬虫的基本原理,无法用于稳定的爬虫项目。
爬虫工具
这次使用Requests
库发送http请求,然后用lxml.etree
解析HTML文档对象,并使用xpath
提取职位信息。
Requests简介
Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取。
官网里介绍说:Requests is an elegant and simple HTTP library for Python, built for human beings.
Requests优雅、简易,专为人类打造!
总而言之,Requests用起来简单顺手。
Requests库可以使用pip
或者conda
安装,本文python环境为py3.6。
试试对百度首页进行数据请求:
# 导入requests模块
import requests<br>
# 发出http请求
re = requests.get("https://www.baidu.com/")
# 查看响应状态
print(re.status_code)
# 查看url
print(re.url)
# 查看响应内容
print(re.text)
# 查看编码
print(re.encoding)
# 二进制响应内容
print(re.content)
# json响应内容
print(re.json)
相关文章