公司有一个业务,需要根据企业名,去企查查这样的网站上查询统一社会信用代码还有国标行业这样的信息制作合同文书。
量也不多,每个月大概一次性一百条左右。
之前他们的方式都是登陆几个账号,手动去查,然后记录在表格中。
现在业务人员希望能出个半自动化的工具,尽量减少人力时间。
目前看了企查查的接口,要想查国标行业,还得是个高级接口,还要企业认证才行,价格还是面议。感觉挺麻烦的。 而且公司层面,走这样购买接口或者资质认证,流程也比较麻烦。
目前考虑通过 selenium 的方式来采集,企查查网站查询到一定数量后,再让使用者手动切换账号。 在网站限制的范围内进行查询,登陆过程都是手动,只不过把人工搜索和复制信息的过程,进行代码化。
不知道这样是否存在法律风险。或者有没有其他法律风险更小的方案?
1
yyzh 340 天前
在合规上来说爬虫就是爬虫,没有什么多与少的区别.
但是私底下嘛.企查查自己都是爬的别家的数据 https://www.qcc.com/web/cms/cm_14 |
2
qwertty01 340 天前
selenium 大概率被封禁
一家做爬虫起家的,你还想去爬他家数据,关公门钱耍大刀 我几年之前,做过这个爬虫,当时是滑动验证码,大概几百条就被封 现在大概率 selenium 会被监测出来 我推荐你搞个自动化鼠标的工具,然后固定区域截屏,进行识别 |
3
huijiewei 340 天前
直接做个 chrome 插件自己部署咋样
|
4
locoz 340 天前
合理需求、内部使用、量不大,没有问题,又不是大量爬了拿去卖钱或者做竞品之类的,那就叫不正当竞争了。
|
5
kumago 340 天前 1
RPA 慢慢跑就可以了
|
6
defunct9 340 天前 1
puppeteer
|
7
INW017bzMfgkkYGn 340 天前
这点量不用问,问就是人工查的
|
8
yxb9511 340 天前
上淘宝搜企 chacha
|
9
mcV473b9u4GfJG81 340 天前
凡事会检查你是不是机器人的地方 用屏幕回放功能 其他用自动化或是 post 请求。
|
10
ruoxie 340 天前 via Android
RPA
|
11
QHKZ 339 天前
puppeteer
|
12
mxT52CRuqR6o5 339 天前
给公司省钱省事儿,给自己增加风险,别整这种操作
|
13
wolfan 339 天前
为什么不直接爬官方呐,企查查也不过是二手信息,从工商司法各部门爬回内容后综合加工。
|
14
summerwar 339 天前 2
那你还不如写个油猴脚本,直接打开页面的时候自动提取页面信息,提交到一个后台,这样业务员也轻松,任何反爬的措施都可以规避掉
|
15
mysunshinedreams 339 天前
建议使用 Puppeteer ,不过也挺麻烦,搞别的网站经常换验证码的样式。
|
16
leyoumake1997 339 天前
云 API 了解下,按次付费。
|