比如我要爬取的网站是 https://xxx.com,在 log 信息中看到得到的网页有很多 https://xxx.com?mdtp=30&p=8+++++++++++++++++++ 而且+号是不断的增加的,网站返回的是同一个页面。使用 linkExtractor 去过滤吗?
1
prasanta 2017-06-02 09:28:07 +08:00
把它处理掉
|
2
KeepPro 2017-06-02 09:29:54 +08:00 via Android
这说明人家并不想让你爬
|
3
734506700qq 2017-06-02 09:36:25 +08:00 1
啥网站啊,这么溜,这个反爬虫机制真 low
|
4
zhangzixu OP @734506700qq 高校的,哈哈
|
5
cranelee13 2017-06-02 10:21:46 +08:00 via iPhone
用正则过滤链接吧,很好解决。
|