1
gouchaoer OP 某合作的友商喜欢用 QQ,我也喜欢用 qq,他们太好了,业务熟练,问的问题很好,质疑的好,比不上别人
|
2
chenqh 2017-05-12 00:57:33 +08:00 via iPhone
大神教我写爬虫 a
|
3
binux 2017-05-12 01:08:29 +08:00
chrome headless 模式可以用了。直接用呗,还要什么编译。
限于工作限制,不能自己搞,不过我可以教你 |
4
geelaw 2017-05-12 01:57:09 +08:00 via iPhone
WebDriver 啊
|
7
GoBeyond 2017-05-12 05:58:37 +08:00 via Android
scrapy 爬怎么了?
|
8
lulinux 2017-05-12 07:32:44 +08:00 1
看到楼主这样的自言自语就烦
|
9
murmur 2017-05-12 07:51:20 +08:00
都抛弃 phantom 了。。
|
10
lekai63 2017-05-12 08:20:17 +08:00 via iPhone
所以 php 成最烦的语言?!
|
11
ob 2017-05-12 08:36:19 +08:00 via Android
难才有市场。。
|
12
Messiahhh 2017-05-12 08:51:52 +08:00 via Android
对 爬虫的进攻比防守要难很多……
|
13
panyanyany 2017-05-12 09:05:20 +08:00
我用代理池去爬淘宝感觉还是可以的,只要控制好一个 ip 一小时内只爬几个页面,就很少被 ban。由于代理池里有 1k+个可用 ip,所以爬取效率目前来说可以接受。
|
14
twm 2017-05-12 09:20:07 +08:00 via iPhone
技术没啥难的 难的是斗智斗勇
|
17
dongxiaozhuo 2017-05-12 09:33:29 +08:00 via iPhone 4
@gouchaoer 爬虫的烦恼两件事:突破反爬,解析页面。前者基本等于:你猜,后者等于富士康员工。
|
18
MrFireAwayH 2017-05-12 09:44:23 +08:00 via Android
@binux 活捉跳蚤巨巨😱
|
19
broono 2017-05-12 09:53:04 +08:00 via Android
@dongxiaozhuo 卧槽了 简直吐出了我的心声。目前在做 PY 爬虫 996 开发维护,有的还要自己封装成接口给人用做实时在线查询啊了个去,一个注册查询的接口要请求一两百个站真是感觉体力不支。
对了,不知道富土康招不招人😂 |
20
fuxkcsdn 2017-05-12 10:05:36 +08:00 via iPhone
特意去翻了你的发帖记录,没错,你不就是在 v2 上发过 2 篇爬虫分享文章的作者嘛😳遇到瓶颈了?
|
21
sniffles 2017-05-12 10:06:56 +08:00
@dongxiaozhuo 强拍这条,大实话
|
22
yangxiongguo 2017-05-12 10:32:41 +08:00
最近在研究 Chrome Headless,有木有交流群之类的
|
23
herozzm 2017-05-12 11:07:47 +08:00 via Android
@dongxiaozhuo 前者你猜就是去猜解网站的反爬策略,后者解析页面就是写各种正则,匹配规则,体力活
|
24
soulmine 2017-05-12 11:19:15 +08:00
一把辛酸泪 坑是数不清的
|
28
herozzm 2017-05-12 12:58:10 +08:00 via Android
@suliuyes 有些场景必须正则,还有 json 的,xpath 和类 jquery 选择器不如正则方便,没有 class,没有 id,没有属性,藏的很深的 node
|
29
cxh116 2017-05-12 14:17:47 +08:00 via Android
@panyanyany 请问代理池的 ip 是采集的?还是购买的?还是自己扫的?
|
30
panyanyany 2017-05-12 15:36:47 +08:00 1
@cxh116 #29 以前买过 ip,但感觉有效 ip 太少,现在主要是采集为主,采集回来还要验证一下,有效 ip 虽然也不多,但好在是免费的
|
31
gulullu 2017-05-12 15:38:48 +08:00
znm。。。。陕西人?
|
32
chinafeng 2017-05-12 15:39:46 +08:00
推荐一款云爬虫产品: https://www.zaoshu.io
我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了 |
37
ZSeptember 2017-05-12 18:19:11 +08:00
其实现在的爬虫已经没什么技术难度了,有的只是资源问题。
不管怎么样,只要浏览器端能看见的,都能够爬到,像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。 其实什么策略都是没什么用的,有策略,速度就曼了,没什么用。 所以,就是堆 IP,或者帐号而已。 做到后面就没啥了,就是一些规则+流程而已 |