1
gimp 2016-03-03 23:52:45 +08:00 1
ban 了,你就开代理呗
|
2
jessynt 2016-03-03 23:56:13 +08:00 2
尽可能模拟真实用户请求, 2 分钟一次当然没问题,如果被 Ban ,开代理 或者更换 IP ,网上很多免费代理的,不过要注意自己验证一下代理可用性
|
3
shiny 2016-03-04 00:11:34 +08:00 1
2014 年的时候分析过并绕过了搜狗的微信反爬虫规则,无需换 ip 就能大规模采集。
只是采集来的微信内容很多有非法信息,被网警找过一次。 |
4
akaayy OP |
6
shiny 2016-03-04 00:39:50 +08:00 3
@shiny 2014 年的策略现在可能过期了吧,我提供下当时的笔记吧:
一、现象分析 1. 如果没有完全模拟浏览器,会在访问数页之后进入 antispider 页面要求输入验证码 2. 复制当前浏览器 cookies 后,可以访问更多页数,但一段时间后还是会触发验证码 3. 清理该 cookies 后无需验证码又可以访问 4. 此系统属于搜狗平台化运维体系 http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html 二、两处 cookies 注入点 1. 访问首页注入 cookie SUID 标识了一次会话 2. antispider 页面有两种类型,第一次触发时仅仅使用 javascript 注入 cookies SNUID ,表示此次访问的不是 spider ;第二次触发后显示验证码,但是只要重新访问首页获取新的 SUID ,就可以避免验证码识别或者更换 IP 3. 自行拼接参数发送请求,可能导致嫌疑程度增加 4. user-agent 含 spider/bot 的具有重大作案嫌疑,触发时直接返回 403 三、反屏蔽机制——尽量模拟浏览器 1. 涉及 cookies 注入的图片和网页都访问一遍 2. 使用 javascript 注入的 cookies 全部抓取一遍并 setCookie 3. 如果 antispider 页面( http://www.sogou.com/antispider/) 出现验证码,清理旧 cookies ,重新发起请求 EOF. |
7
est 2016-03-04 09:36:22 +08:00
搜狗收录不全的。我问过搜狗的哥们,他们也在绞尽脑汁想办法破解 微信 app
|
8
814084764 2016-03-04 17:41:41 +08:00
Mark 。。
|
9
incompatible 2016-03-06 14:13:03 +08:00 via iPhone
@est 你这不是张口就讲胡话吗
搜狗现在是腾讯的半个儿子,不需要做什么破解微信 APP 之类的事儿 |
10
est 2016-03-06 16:27:25 +08:00
@incompatible 你厉害。隔空判断真理。
|
11
incompatible 2016-03-06 21:16:53 +08:00
@est 呵呵。你哥们在搜狗哪个部门啊? 我还真想去打听打听他们打算怎么破解微信 app 呢。
|
12
est 2016-03-07 09:18:17 +08:00
@incompatible 这样吧,拿事实说话,搜狗能检索 “招商银行” 这个公众号发的文章吗?
|
13
incompatible 2016-03-07 14:43:48 +08:00 via iPhone
@est 搜不到。但是这并不能证明搜狗在做“绞尽脑汁去破解微信 app ”
如果你真的有个哥们儿在搜狗且说过这样的话,你不妨透露一下他的部门。 我作为搜狗前雇员,去打听一下“ 1 到底有没有这个部门 2 这个部门到底有没有在绞尽脑汁破解微信 app ”并不是什么难事儿。 |
14
est 2016-03-07 15:20:10 +08:00
@incompatible 好吧。我重新叙述一遍,“绞尽脑汁”是我夸张了。我所知道的情况是一位或者多位搜狗的开发者对逆向微信 app 很感兴趣而且做出了这方面尝试的努力。我进一步了解的细节是 weixin.sogou.com 并不能拿到全部的公众号数据所以他们产品需要另辟蹊径。用他们的话说,签合同入股不等于不使绊子,也不等于数据无保留全部开放。
|
15
czzsean 2016-03-29 15:29:45 +08:00
发现传送门文章更新频率比搜狗微信的还及时。
|