本身做云主机和拨号 VPS,拥有的 IP 资源很多。发现很多客户买拨号 VPS 之类的过去自建代理 IP 然后做爬虫采集,但是这种客户的时间成本一般都比较高,拨号 VPS 因为各种因素(如运营商宽带大姨妈了)稳定性没办法很好的把控,对于大客户来说维护成本特别高。比如一些互联网巨头的程序猿再去做这些售后维护工作就太大材小用了(出现故障后需要客户先反馈给我们,然后我们进行处理)。市面上也存在着一些商业化代理 IP,但是或多或少都存在着一些弊端,比如 IP 切换的时间不受控制,或者带宽较低稳定性也不高等。我们想自己开发代理 IP 项目,原因一个部分就是因为我们的成本相对较低,另外一个如果我们直接提供给客户动态代理 IP 而不是拨号 VPS 的话,可以节省我们很大的人工量,因为出现问题的节点我们可以自行过滤掉,提供给客户的代理 IP 基本上能保障 99.99%的可用性,另外也可以提高我们产品的利润率。 所以,问题来了,想问问有做爬虫的朋友们,在使用代理 IP 的时候都有什么具体的需求?以便于我们在开发的过程中更加贴近客户的需求。
1
gdtv 2017-05-18 13:27:15 +08:00 via Android
我正需要很多 ip,希望可以提供 rest 接口,我从接口获取 ip,另外最重要的是价格要便宜
|
2
firefox12 2017-05-18 13:28:08 +08:00 via iPhone
网上免费的 proxy 可用率太低 基本没办法翻墙
|
3
firefox12 2017-05-18 13:28:36 +08:00 via iPhone
如果你们这个可以翻墙 还是不错
|
4
shawngao 2017-05-18 13:32:14 +08:00
关注下,看后文
|
5
klxq15 2017-05-18 13:36:26 +08:00 via Android
切换耗费的时间尽量小,价格合适
|
8
qwe321 OP @klxq15 我看了下目前市面上真正独享的代理 IP 价格大概都在月付 100-200 之间,切换频率貌似限制在 10-20S 之间。
|
9
iannil 2017-05-18 16:09:18 +08:00
要做动态 IP 的差异化吗?常年做爬虫类的东西,给你一些建议:
1、指定省市区,越细分越好 2、控制响应时间,根据客户本身的位置与 DNS 等,返回合适的代理,确保每次返回的 IP 代理速度优质,而不是爬虫尝试连了发现网络不行 3、指定运营商,有线的电信、联通、长城、方正,无线的移动 4G,电信 4G,联通 4G 4、指定目标,这个可能有争议,根据客户用 IP 的请求,分析客户的目标域名,那么如果其他客户请求 IP 的时候,一旦发现请求的也是这个域名,提示客户换一次 IP,这个 IP 被其他客户用来抓类似的目标了。 暂时就想到这些...有再补充 |
10
gdtv 2017-05-18 16:49:29 +08:00 via Android
切换频率是什么意思?
|
11
binux 2017-05-18 16:58:59 +08:00
为什么代理 IP 会有切换频率这个东西?我们用的商业代理 IP,拿到都是用好几个月的。
如果你要做切换,那就做个 forward 代理出口呗。 |
12
gouchaoer 2017-05-18 17:06:00 +08:00
LZ 有微博之类的联系方式么,v2ex 没私信,有些东西想和你沟通沟通
我自己做了一套类似的东西 |
15
qwe321 OP @binux 那个是固定 IP 的也可以做。但是貌似大多数爬虫采集的需求动态 IP,就是 IP 被目标网站封了后,可以切换其他 IP 继续采集。你们固定 IP 的代理主要是用来做什么业务呢?
|
16
qwe321 OP @iannil 1 和 3 基本上都是一样,目前也是打算这样做的,按地市+运营商划分,然后会再按省份或者中西部和东部这样分组。
第二点估计没有实现的可能性,而且如果都指定机房了,还返回什么合适的代理? 第四点有看到部分网站是让客户主动提交需要采集的网址,感觉这点如果是一个 IP 共享给多个客户用的话比较需要,但是我们本身做的是一个 IP 同时只有一个客户在使用,池子足够大的话是基本上不会出现啥问题的。 |
18
iannil 2017-05-18 19:22:55 +08:00
@qwe321 #16
1 和 3 不一样,比如抓某些 app,尤其是有大数据做用户行为分析的 app,对运营商、省市是有区分的,比如河南 IP 秒封,或者山西电信秒封,山西联通可用。 2 并不是指定机房,比如我的服务器在上海,在没有指定省市的情况下,应返回最快的代理,在指定省市的情况下,应返回该省市内,最快的代理。不能随便分配一个。 4 的话,我们用过很多号称百万 IP 的代理,在限定范围的情况下,我们每天消耗 1-5 万多的 IP,根本不够用,没几天就会重复了。如果你服务 10 个以上和我们一样情况的客户,就会出现我说的这种情况了。我们现在遇到这种情况一般立刻换一家服务商,避免同行撞车。 |
19
binux 2017-05-18 19:29:18 +08:00
|
20
Showfom 2017-05-18 20:07:07 +08:00
@binux 我们直接买两万个的,随机读取用- - 封了就封了 但是有些人有需求的,比如要特定地区动态拨号的 IP 游戏工作室一般会要
|
22
gdtv 2017-05-18 20:39:41 +08:00
和#11 楼一样,我也不知道为什么代理 IP 会有切换频率这个东西。
你就给我一个接口,我访问这个接口你就实时给我返回一个代理 IP 不就行了吗?我想什么时候去获取 IP,以什么频率换 IP 由我这边的业务需求决定,你那边不用管,你那边接口只需要返回 IP 给我就行。 |
23
qwe321 OP @iannil 噢,但是好多家代理 IP 服务商都是购买我们的拨号 VPS,所以。。。但是如果我们去做的话,我们完全有办法搞到上百个地市不同运营商的 IP,资源的能力完全不在一个等级上。
1 和 3 的话对于我们基本一样,我们肯定会用地市+运营商去区分的,比如做到让客户可以选择上海电信或者上海联通。 2 的话确实不太可能,只能随机分配 IP,本来对于大多数客户需求的就是 IP 的不同。 |
26
qwe321 OP |
27
iannil 2017-05-18 21:15:54 +08:00
@qwe321 我不明白你所说的基本一样是什么意思?运营商是运营商,省市区是省市区,你能做到让用户选择上海电信或上海联通,这就是区分了运营商和省市区。
如果不做区分,那应该是选了上海就指定给你电信的,或指定给你联通的,你不能选。或者随机给你个电信的或联通的,用户没有选择哪种运营商的权利。 2 是可以做到的,就看愿不愿意做。 上百个地市不同运营商的 IP....还是祝顺利吧。 |
28
qwe321 OP 不过普通的代理 IP,后期我们也会开发吧,前期主要还是开发独享的动态 IP,这个是我们的优势。
|
30
qwe321 OP @iannil 目前已经拥有了差不多一百地市的 IP 资源,我也是在拥有了资源基础的情况下,才想要来做这个项目的。如果纯粹做代理 IP,而不是 VPS 的话,维护工作量其实更小,很多人脉资源都可以利用。上百地市的 IP 真的只是起步。就比如目前做的混拨 VPS,就已经汇聚了一百多个地市的 IP。当然了,所以一个地市,指的是只有拥有其中一个 BAS 的 IP。
|
31
iannil 2017-05-18 21:24:21 +08:00
|
32
onion83 2017-05-18 21:29:15 +08:00
客户通过 VPN 连接到你的内网中,网关地址固定,关键需要维护好一个 DNAT 地址池,出口确保出口 IP 每次都不一样即可。当然 还要提供至少两个能力,
1,客户主动告知你某 ip 已经被 ban,需要在地址池中去掉。 2、定时返回地址池数量,当地址池消耗完毕或者接近下限时候,重现拨号或再次重建更大的地址池。 好吧,说到这里我才忽然记得玩过类似的东西:阿里云的 DNAT 网关。。。。 https://help.aliyun.com/document_detail/32322.html |
33
qwe321 OP @iannil 可以参照下我们目前拨号 VPS 项目的地域 www.qgvps.com/bohaovps.asp
|
37
sunorg 2017-05-19 01:43:32 +08:00
同求一个价格
大概需要 3000 稳定。 国外优先 报价来 |
38
SP00F 2017-05-19 01:49:26 +08:00
。。。
简单点如果只是做 Web 爬虫,你提供一个 API 接口,请求数据的服务由你 API 接口来处理,而不需要返回代理 IP。用户直接通过你提供的 API 接口请求指定的 Web 页面,而代理层由你后端处理。完全省去用户操作,这个比较受用户欢迎的。 好像现在市场上已经有类似的了。 |
39
changwei 2017-05-19 08:57:00 +08:00 via Android
拨号 vps 主要就是用于爬虫吗?
|
41
firefox12 2017-05-19 09:59:51 +08:00 via iPhone
问一个技术问题 拨号 vps is 是说和电信那里播号吗?难道这个账号可以多开?
|
42
qwe321 OP |
43
LokiSharp 2017-05-19 12:59:20 +08:00
看价格吧
|
44
SP00F 2017-05-19 13:19:10 +08:00
|
46
surfire91 2017-05-19 14:45:43 +08:00
不知道卖爬虫代理 ip 表的有没有市场
|
48
surfire91 2017-05-19 16:34:00 +08:00
@qwe321 比如有些站不愿意爬虫爬,又不想花大精力跟爬虫斗智斗勇,就直接买专门提供代理服务的 ip 列表,直接进黑名单。
|
49
firefox12 2017-05-19 17:19:56 +08:00
那 这些提供 ip 的不得立刻倒闭? 你说开赌场的会把赌客名单提供给公安局的吗?
|
50
qwe321 OP @surfire91 那不可能的,提供的都是正常的家用 IP。首先你无法统计到全部的 IP,其次如果都封了等于也拒绝了 N 万的正常客户访问。如果是把我们涉及的 IP 都封了,估计全国上下受影响的客户不是一丁半点的多。
|
53
plantparknet 2017-06-30 07:07:13 +08:00
拨号 vps 有详细点的介绍么? ip 更换频率, 可用 ip 池多大
|
54
qwe321 OP |
55
plantparknet 2017-07-02 00:35:49 +08:00
@qwe321 好像并没有 IP 更换频率和 ip 池的介绍
|
56
qwe321 OP @plantparknet IP 不是有介绍 IP 段么?频率都没限制,都是运营商的限制,一般都是几秒之间,除了福建电信需要一二十秒外
|