hxxp://58938.ytnrip.cn/ hxxp://02344.125091.com/ hxxp://48455.66539.co/ hxxp://30362.ert34sd.pw/ hxxp://89219.57truy65.pw/ hxxp://61834.i9wan.com/ hxxp://62787.jiudiangege.com/ hxxp://38674.635948.com/ hxxp://94240.66528.co/ hxxp://45739.77366.co/ hxxp://06105.125036.com/ hxxp://47877.55973.co/ hxxp://67569.744526.com/ hxxp://65439.800kk.com/ hxxp://60305.929348.com/ hxxp://88861.99973.info/ hxxp://28813.380009.club/ hxxp://67356.195763.com/
大概这种站
1
hack 2016-09-07 19:45:00 +08:00
我的站群一天就能让百度谷歌神马爬掉几个 G ,人也淡定了
|
5
hack 2016-09-07 20:12:21 +08:00
@wjm2038 爬虫会记录下自己的任务,下次继续爬,基本上一个月爬虫爬掉几百 G 很正常的,反正站群就是引流的,无所谓了,只要不爬死 server 就行
|
6
zhjits 2016-09-07 21:58:36 +08:00
要么域名里面有四位以上纯数字就扔掉,要么给子域名随机动一个 bit 再抓一次,如果页面相同部分超过 90% 就判断成辣鸡站
|
8
wyntergreg 2016-09-08 09:10:47 +08:00
爬过的站你不记录吗,别走回头路总是行的吧
|
9
dsg001 OP @wyntergreg 泛解析的站群,无限二级域名,记录也没用
|
10
bombless 2016-09-08 14:40:10 +08:00
记录二级域名的访问数量,然后限制每个二级域名的访问数吧
至于说大量使用三级、 4 级域名的站,不爬也罢, 233 |
11
xderam 2016-09-08 17:14:44 +08:00
一般的域名不太会超过百个吧,先判断下域名个数,然后再爬啊。
|
12
dsg001 OP |
14
haitang 2016-09-09 15:07:54 +08:00 1
如果是泛解析,可以在某主域二级域名过多时,尝试进行无意义的多个二级域名解析,如随机几位英文+数字组合,进行多次验证,可以解析且打开不是 404 等,基本都是垃圾站了
|
15
yq70Wfm8y9vY6yh3 138 天前
16c4a
|