Python异步爬虫的学习(一)

关键词: Python, 异步, 爬虫


本文主要从一下几个方面进行说明:



什么是异步编程


文章开始前,先简单介绍下各种 IO 模型:

最容易做的是阻塞 IO

即读写数据时,需要等待操作完成,才能继续执行。进阶的做法就是用多线程来处理需要 IO 的部分,缺点是开销会有些大。

接着是非阻塞 IO

即读写数据时,如果暂时不可读写,则立刻返回,而不等待。因为不知道什么时候是可读写的,所以轮询时可能会浪费 CPU 时间。

然后是 IO 复用

即在读写数据前,先检查哪些描述符是可读写的,再去读写。select 和 poll 就是这样做的,它们会遍历所有被监视的描述符,查看是否满足,这个检查的过程是阻塞的。而 epoll、kqueue 和 /dev/poll 则做了些改进,事先注册需要检查哪些描述符的哪些事件,当状态发生变化时,内核会调用对应的回调函数,将这些描述符保存下来;下次获取可用的描述符时,直接返回这些发生变化的描述符即可。

再之后是信号驱动

即描述符就绪时,内核发送 SIGIO 信号,再由信号处理程序去处理这些信号即可。不过信号处理的时机是从内核态返回用户态时,感觉也得把这些事件收集起来才好处理,有点像模拟 IO 复用了。

最后是异步 IO

即读写数据时,只注册事件,内核完成读写后(读取的数据会复制到用户态),再调用事件处理函数。这整个过程都不会阻塞调用线程,不过实现它的操作系统比较少,Windows 上有比较成熟的 IOCP,Linux 上的 AIO 则有不少缺点。
虽然真正的异步 IO 需要中间任何步骤都没有阻塞,这对于某些只是偶尔需要处理 IO 请求的情况确实有用(比如文本编辑器偶尔保存一下文件);但对于服务器端编程的大多数情况而言,它的主线程就是用来处理 IO 请求的,如果在空闲时不阻塞在 IO 等待上,也没有别的事情能做,所以本文就不纠结这个异步是否名副其实了。

然后我们了解一下事件循环(Event Loop)

Event Loop 是一个很重要的概念,指的是计算机系统的一种运行机制。

我们一般的单线程程序中,所有任务需要排队,前一个任务结束,才会执行后一个任务。如果前一个任务耗时很长,后一个任务就不得不一直等着。

如果排队是因为计算量大,CPU忙不过来,倒也算了,但是很多时候CPU是闲着的,因为IO设备(输入输出设备)很慢(比如Ajax操作从网络读取数据),不得不等着结果出来,再往下执行。


那么这时主线程完全可以不管IO设备,挂起处于等待中的任务,先运行排在后面的任务。等到IO设备返回了结果,再回过头,把挂起的任务继续执行下去。

于是,所有任务可以分成两种,一种是同步任务(synchronous),另一种是异步任务(asynchronous)。同步任务指的是,在主线程上排队执行的任务,只有前一个任务执行完毕,才能执行后一个任务;异步任务指的是,不进入主线程、而进入"任务队列"(task queue)的任务,只有"任务队列"通知主线程,某个异步任务可以执行了,该任务才会进入主线程执行。
具体来说,异步执行的运行机制如下。(同步执行也是如此,因为它可以被视为没有异步任务的异步执行。

1)所有同步任务都在主线程上执行,形成一个执行栈(execution context stack)。

2)主线程之外,还存在一个"任务队列"(task queue)。只要异步任务有了运行结果,就在"任务队列"之中放置一个事件。

3)一旦"执行栈"中的所有同步任务执行完毕,系统就会读取"任务队列",看看里面有哪些事件。那些对应的异步任务,于是结束等待状态,进入执行栈,开始执行。

4)主线程不断重复上面的第三步。

下图就是主线程和任务队列的示意图。

只要主线程空了,就会去读取"任务队列",这个过程会不断重复。

所谓异步是相对于同步(Synchronous)的概念来说的,之所以容易造成混乱,是因为刚开始接触这两个概念时容易把同步看做是同时,而同时不是意味着并行(Parallel)吗?然而实际上同步或者异步是针对于时间轴的概念,同步意味着顺序、统一的时间轴,而异步则意味着乱序、效率优先的时间轴。比如在爬虫运行时,先抓取 A 页面,然后从中提取下一层页面 B 的链接,此时的爬虫程序的运行只能是同步的,B 页面只能等到 A 页面处理完成之后才能抓取;然而对于独立的两个页面 A1 和 A2,在处理 A1 网络请求的时间里,与其让 CPU 空闲而 A2 等在后面,不如先处理 A2,等到谁先完成网络请求谁就先来进行处理,这样可以更加充分地利用 CPU,但是 A1 和 A2 的执行顺序则是不确定的,也就是异步的。

为什么要使用异步编程?


CPU的速度远远快于磁盘、网络等IO。在一个线程中,CPU执行代码的速度极快,然而,一旦遇到IO操作,如读写文件、发送网络数据时,就需要等待IO操作完成,才能继续进行下一步操作。这种情况称为同步IO。

在IO操作的过程中,当前线程被挂起,而其他需要CPU执行的代码就无法被当前线程执行了。

因为一个IO操作就阻塞了当前线程,导致其他代码无法执行,所以我们必须使用多线程或者多进程来并发执行代码,为多个用户服务。每个用户都会分配一个线程,如果遇到IO导致线程被挂起,其他用户的线程不受影响。

多线程和多进程的模型虽然解决了并发问题,但是系统不能无上限地增加线程。由于系统切换线程的开销也很大,所以,一旦线程数量过多,CPU的时间就花在线程切换上了,真正运行代码的时间就少了,结果导致性能严重下降。

由于我们要解决的问题是CPU高速执行能力和IO设备的龟速严重不匹配,多线程和多进程只是解决这一问题的一种方法。

另一种解决IO问题的方法是异步IO。当代码需要执行一个耗时的IO操作时,它只发出IO指令,并不等待IO结果,然后就去执行其他代码了。一段时间后,当IO返回结果时,再通知CPU进行处理。

如何利用Python实现异步


我们首先需要了解以下几个概念:
- Event Loop
- Coroutine

其中Event Loop在前面已经解释过
Coroutine是协程,具体解释可以查阅协程

Python 3.5 以后推荐使用 async/await 关键词来定义协程,它具有如下特性:

- 通过 await 将可能阻塞的行为挂起,直到有结果之后继续执行,Event loop 也是据此来对多个协程的执行进行调度的;
- 协程并不像一般的函数一样,通过 coro() 进行调用并不会执行它,而只有将它放入 Event loop 进行调度才能执行。

这里我就从廖大哪里搬运个小例子(有改动)


import threading
import asyncio

async def hello():
    print('Hello world! (%s)' % threading.currentThread())
    await asyncio.sleep(1)
    print('Hello again! (%s)' % threading.currentThread())

loop = asyncio.get_event_loop()
tasks = [hello(), hello()]
loop.run_until_complete(asyncio.wait(tasks))
loop.close()

执行结果


Hello world! (<_MainThread(MainThread, started 140735195337472)>)
Hello world! (<_MainThread(MainThread, started 140735195337472)>)
(暂停约1秒)
Hello again! (<_MainThread(MainThread, started 140735195337472)>)
Hello again! (<_MainThread(MainThread, started 140735195337472)>)

其中sleep是我们模拟的io用时,我么你可以从这个小例子中看出,执行hello()的时候,io并未堵塞,而是继续向下执行
hello()会首先打印出Hello world!,然后,由于asyncio.sleep()是一个coroutine,所以线程不会等待asyncio.sleep(),而是直接中断并执行下一个消息循环。当asyncio.sleep()完成时,线程就可以接着执行下一行语句。

下一篇文章将在此基础上实现一个简洁、普适的爬虫框架

喜欢本文?求鼓励,求支持!

创作时间: 2016.12.11 16:26
最后修改: 2017.03.27 18:58

本文版权:Akkuman's   共享协议:署名-非商业使用-禁止演绎


随机推荐:



Title - Artist
0:00
TOP