项目地址:
https://github.com/sedgwickz/jsonHunter
在线网站:
https://jsonhunter.vercel.app/
演示图:
如果觉得对你有用帮忙给个 star🧡哈,根据情况可以继续完善。
1
kidlj 2020-12-20 11:58:10 +08:00 via iPhone
很棒。有一个问题想问,serverless 架构每个运行的实例出口 IP 是一样的吗?如果每次不一样,那可太适合爬虫了,不过我猜可能性不大。
|
2
vagrantear 2020-12-20 12:10:26 +08:00
已经 star 了,感觉还不戳
|
4
sedgwickz OP @kidlj 即使一个同一个 worker 是固定 ip,可以想像要是创建 N 个 worker,实现类似 Load balance 效果,比市面上免费的代理 ip 应该好多了。
|
5
WordTian 2020-12-20 12:32:49 +08:00 via Android
不过这类要封也容易,cf 有固定 ip 段的
|
6
sedgwickz OP @WordTian 其实项目初衷也不是让大家去大规模去爬取哈,主要帮助大家开发,类似方便快捷的获取 jsonplaceholder 的效果。
|
7
echowuhao 2020-12-20 12:47:16 +08:00
你要是拿来做爬虫,估计违反人家的用户条款。
|
8
lizheming 2020-12-20 13:12:18 +08:00
https://vercel.com/docs/platform/fair-use-policy#never-fair-use Vercel 协议里禁止放爬虫的说
|
9
jinliming2 2020-12-20 14:29:10 +08:00
爬取网页的话,会自动把网页中的 http 链接替换成 https,这是 worker 自动搞得😂
|
10
no1xsyzy 2020-12-20 17:44:57 +08:00
之前就听人说过了,而且对于爬套了 CF 的网站有奇效,能绕过 CF 的质询(白名单
|
14
sampeng 2020-12-20 20:23:07 +08:00 via iPhone
serveless 迟早被玩坏…
|
15
mamahaha 2020-12-20 23:23:21 +08:00
这配色真是用心良苦
|
16
BwNVlwSq 2020-12-20 23:28:07 +08:00 via iPhone
这 LOGO,好家伙🤣
|
17
vilic 2020-12-21 00:24:21 +08:00
我感觉这个 HTML 到 JSON 的映射挺有意思啊,有考虑过单独做成一个库吗?
|
18
netnr 2020-12-21 08:57:25 +08:00 via Android
cfw 做代理没得问题,但是滥用被投诉就有问题(我前面的跨域代理绑定的域名已经被永封了)
vercel 做代理会收到警告邮件要求整改 |
19
AlexPUBLIC 2020-12-21 09:04:06 +08:00
@no1xsyzy 我刚刚去看了一眼我的网站访问记录,cf 的 firewall rule 对 cf 的 ip 免疫
|
20
fuxkcsdn 2020-12-21 14:08:33 +08:00
cf worker 根据 UA 就封得了了,UA 改不了我记得(刚出来那会测试的)
|