爬虫根据 start_urls 去爬页面,然后对返回的结果处理,如果有 10 个 start_urls ,他是 10 个网址同时去访问,获得结果,然后 10 个同时处理吗, 10 个线程再各自处理自己的结果里的信息吗
感觉如果是一个线程的话,那难道是一个一个的访问,然后等完全处理掉了其中一个 start_urls 以及其后续结果里的内容,才会去处理第二个 start_urls 吗
1
junnplus 2016-03-14 10:12:11 +08:00 via Android 1
可以看下源碼,我記得是 yield
|
2
qq5745965425 OP @junnplus 谢谢,确实有个 yield ,但是我不知道他的原理, 是不是这个 yield 可以把对应数据推送到某个队列,然后 会有专门的一个 worker 来消费这个队列呢, 而 yield 负责把对应内容装入队列 ,请问是这样吗
|
3
junnplus 2016-03-14 17:01:45 +08:00 1
|