Python进阶:理解Python中的异步IO和协程(Coroutine),并应用在爬虫中

2020-06-19 00:00:00 执行 线程 消费者 返回 循环

基础知识

(1)什么是同步IO和异步IO,它们之间有什么区别?

答:举个现实例子,假设你需要打开4个不同的网站,但每个网站都比较卡。IO过程就相当于你打开网站的过程,CPU就是你的点击动作。你的点击动作很快,但是网站打开很慢。同步IO是指你每点击一个网址,都等待该网站彻底显示,才会去点击下一个网址。异步IO是指你点击完一个网址,不等对方服务器返回结果,立马新开浏览器窗口去打开另外一个网址,以此类推,后同时等待4个网站彻底打开。很明显异步IO的效率更高。

(2)什么是协程,为什么要使用协程?

Python中解决IO密集型任务(打开多个网站)的方式有很多种,比如多进程、多线程。但理论上一台电脑中的线程数、进程数是有限的,而且进程、线程之间的切换也比较浪费时间。所以就出现了“协程”的概念。协程允许一个执行过程A中断,然后转到执行过程B,在适当的时候再一次转回来,有点类似于多线程。但协程有以下2个优势:

  • 协程的数量理论上可以是无限个,而且没有线程之间的切换动作,执行效率比线程高。
  • 协程不需要“锁”机制,即不需要lock和release过程,因为所有的协程都在一个线程中。
  • 相对于线程,协程更容易调试debug,因为所有的代码是顺序执行的。

Python中的异步IO和协程

Python中的协程是通过“生成器(generator)”的概念实现的。这里引用廖雪峰Python教程中的例子,并做一点修改和“装饰”:

def consumer():         # 定义消费者,由于有yeild关键词,此消费者为一个生成器
    print("[Consumer] Init Consumer ......")
    r = "init ok"       # 初始化返回结果,并在启动消费者时,返回给生产者
    while True:
        n = yield r     # 消费者通过yield接收生产者的消息,同时返给其结果
        print("[Consumer] conusme n = %s, r = %s" % (n, r))
        r = "consume %s OK" % n     # 消费者消费结果,下个循环返回给生产者

def produce(c):         # 定义生产者,此时的 c 为一个生成器
    print("[Producer] Init Producer ......")
    r = c.send(None)    # 启动消费者生成器,同时次接收返回结果
    print("[Producer] Start Consumer, return %s" % r)
    n = 
    while n < 5:
        n += 1
        print("[Producer] While, Producing %s ......" % n)
        r = c.send(n)   # 向消费者发送消息并准备接收结果。此时会切换到消费者执行
        print("[Producer] Consumer return: %s" % r)
    c.close()           # 关闭消费者生成器
    print("[Producer] Close Producer ......")

produce(consumer())

相关文章