分布式爬虫是要共享一个 URL 池的么?
多台服务器的话,可以分布在全世界么?比如各地都买 vps
目前一般用什么语言写分布式爬虫? PHP 能行么(一直都用 php 爬的,但都是小爬虫)?谢谢
有没有一个综合性的思路,谢谢
1
yrj 2017-10-21 21:07:40 +08:00 via iPad
参考 pyspider
|
2
t1518968889 2017-10-21 21:07:51 +08:00 via Android
puppeteer
|
3
xielemon 2017-10-21 22:17:04 +08:00
scrapy-redis
|
4
hcnhcn012 2017-10-22 14:11:28 +08:00 via iPhone
scrapy-redis +1
|
5
SlipStupig 2017-10-23 00:29:13 +08:00
scrapy+etcd
|
6
rainnus 2017-10-23 09:42:17 +08:00
scrapy-redis + 2
|