这两周,我们做了一个目前来看非常易用的云爬虫:
现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。
|  |      1lins      2016-11-26 17:38:37 +08:00  1 能分页爬嘛? | 
|  |      2GrahamCloud OP @lins 可以啊,修改规则里面。 | 
|  |      3greatghoul      2016-11-28 14:42:10 +08:00  1 楼主选择页面的标签的那个功能能开源吗?好喜欢。 | 
|  |      4tokoy      2016-11-28 14:46:11 +08:00  1 蛮酷的 主要用啥语言爬的? | 
|  |      5GrahamCloud OP @greatghoul 暂时不能,哈哈,还要完善。 | 
|  |      6wujunze      2016-11-28 17:18:35 +08:00  1 上周已经试用了 | 
|  |      7exalex      2016-11-28 17:48:44 +08:00  2 感觉好牛逼,特别是交互酷炫 | 
|  |      8asd103      2016-11-28 18:57:45 +08:00  1 “执行出错”,能不能把出错信息贴出来? | 
|  |      9wshedu      2016-11-28 19:02:28 +08:00  1 | 
|  |      10carlding123      2016-11-28 19:03:32 +08:00  1 每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额... | 
|  |      11misaka20038numbe      2016-11-28 19:04:46 +08:00  1 测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的. | 
|  |      12GrahamCloud OP @tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下 | 
|  |      13GrahamCloud OP @wshedu 欢迎加我的微信, Zaoshuio 我们想了解能不能做到更多个性化的要求。 | 
|  |      14GrahamCloud OP @carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。 | 
|  |      15GrahamCloud OP @misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio | 
|  |      16billyellow      2016-11-28 20:10:48 +08:00 蛮有意思的,支持支持 | 
|  |      17misaka20038numbe      2016-11-28 22:11:45 +08:00  1 @GrahamCloud 原来是用了框架,怪不得.我不怎么用微信. | 
|  |      18wshedu      2016-11-28 22:48:49 +08:00  1 @GrahamCloud 已添加微信。就是我这个帐号 | 
|  |      19GrahamCloud OP @misaka20038numbe 给的意见非常宝贵,感谢。 | 
|  |      20GrahamCloud OP @wshedu 白天就加,手机拉下了。 | 
|  |      21cougar      2016-11-29 09:53:16 +08:00  1 说实话,真的很酷 | 
|  |      22cougar      2016-11-29 09:54:23 +08:00  1 不过我要的数据貌似是没获取到 | 
|  |      23GrahamCloud OP @cougar 求问是什么数据,能帮到最好。 | 
|  |      24cougar      2016-11-29 11:42:21 +08:00  1 @GrahamCloud 我现在页面提示一直在执行中有一小时了,我的账号是 cougar999 ,在 gmail.com ,你应该能看到吧 | 
|  |      25GrahamCloud OP @cougar 看到了,在解决。 | 
|  |      26kenshinhu      2016-11-29 12:10:22 +08:00  1 哦,使用示例这里有拉勾的中山区域连接的? 这个怎样实现的? | 
|  |      27GrahamCloud OP @kenshinhu 结合定位。 | 
|  |      28GrahamCloud OP @cougar 方便的话加下微信或者首页客服里聊聊吧,好像还在卡。认真解决一下。 | 
|  |      29jaylong      2016-11-29 17:27:42 +08:00  1 邮件 token 非法 | 
|  |      30GrahamCloud OP 感谢! | 
|      31yu550461029      2016-11-30 11:12:42 +08:00  1 打算爬一下国家统计局的行政区划,感觉不大会用呢 | 
|  |      32GrahamCloud OP @yu550461029 想爬什么样的,具体说说? | 
|  |      33GreatMartial      2016-11-30 11:25:29 +08:00 via Android  1 支持,有空体验一下 | 
|      34blackFool      2016-12-01 12:00:53 +08:00  1 界面交互不错,爬爬微信公号 | 
|      35quericy      2016-12-02 15:14:31 +08:00  1 页面元素只能选取,不能直接交互: http://www.huipinzhe.com/nanzhuang?page=1 遇到有全屏遮罩的还得手动 F12...... 如果有的页面需要一系列操作 JS 拼接的数据,是不是就无法采集? | 
|  |      36GrahamCloud OP @quericy 因为上新 ui 的缘故,完成创建的步骤今天卡住了,采集方面,应该是能支持的。 | 
|      37quericy      2016-12-02 15:22:01 +08:00  1 | 
|  |      38GrahamCloud OP @quericy 这个坑确实是有点大,现在还在解决。欢迎加微信: Zaoshuio | 
|  |      39saber000      2016-12-04 02:25:16 +08:00  1 没有 api 吗 | 
|  |      40GrahamCloud OP @saber000 这是这两周的安排。 | 
|  |      41GrahamCloud OP @saber000 api 需求欢迎提交给我,微信 Zaoshuio | 
|  |      42lakewong      2016-12-12 15:06:55 +08:00  1 | 
|  |      43GrahamCloud OP @lakewong 不不,不能爬首页,对于知乎,将来可以通过 api 来搞。 首页的示例里,链家,拉钩这样的,是我们的主要应用场景。 | 
|  |      44xvx      2016-12-12 15:29:56 +08:00 via iPhone  1 域名早熟? | 
|  |      45GrahamCloud OP @xvx 晚熟,晚熟。 | 
|      46mingyun      2016-12-12 23:27:15 +08:00 厉害了我的哥,赶紧去看看 | 
|  |      47baiyi      2016-12-14 14:35:22 +08:00  1 下回节点能放在推广吗 | 
|  |      489hills      2016-12-14 14:48:53 +08:00  1 试试爬一下多看电子书,自己爬比较麻烦的是代理池、防抓取等还需要自己做 | 
|  |      49GrahamCloud OP @baiyi 其实倒真不是推广,是诚心来探讨聊天来着。推广肯定会买广告位,现在产品不成熟还是求意见聊场景的阶段。 | 
|  |      50baiyi      2016-12-14 15:22:22 +08:00  1 @GrahamCloud 嗯 加油做一个好产品! | 
|  |      519hills      2016-12-14 15:34:36 +08:00  1 失败了,这个失败都没有地方 debug 。。。 就一个执行失败。。。我还是老老实实的用 scrapy 吧<_< | 
|  |      52hakulamatata      2016-12-14 15:37:29 +08:00  1 指哪爬哪能做到就已经能够很好了 | 
|  |      53GrahamCloud OP @9hills 我去后台看下啥情况。求告知邮箱 | 
|  |      549hills      2016-12-14 17:26:37 +08:00  1 | 
|  |      55GrahamCloud OP @9hills 为了易用, debug 暂时不能给使用者,现在只能我们尽量帮 debug | 
|  |      56GrahamCloud OP @hakulamatata 产品上问题还特别特别多 | 
|  |      57GrahamCloud OP @hakulamatata 看哪不好随时说。 | 
|      58haigeek      2016-12-16 15:40:30 +08:00  1 没人试试高校的教务管理系统吗? aspx 页面,某果,界面是空白的。 | 
|  |      59GrahamCloud OP @haigeek 求告知网址! | 
|      60haigeek      2016-12-16 16:45:13 +08:00  1 @GrahamCloud http://kmustjwcxk1.kmust.edu.cn/jwweb/ 这个是登录地址,是需要账户和密码的。 http://kmustjwcxk1.kmust.edu.cn/jwweb/MAINFRM.aspx 这个是登录上去的 但是我怕你还是打不开 但是你看后缀是 aspx 的,在页面直接是没有右键选项的。这个管理系统是青果,似乎国内用的也不少,听说是便宜。可以根据信息参考下。 | 
|  |      61iammapping      2016-12-16 16:47:12 +08:00  1 能不能设置规则,爬完列表下钻到详细页爬其他信息 | 
|  |      62GrahamCloud OP @iammapping 正在努力搞这个功能。 | 
|  |      63GrahamCloud OP @haigeek 太感谢了!求加微信: Zaoshuio | 
|      64demov2      2016-12-23 09:43:04 +08:00  1 以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~ | 
|  |      65isb      2016-12-26 12:42:29 +08:00  1 试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。 任务能否有个进度条。。 还有可否增加终止任务?? | 
|      66Hansah      2016-12-26 12:43:14 +08:00  1 恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。 比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。 | 
|  |      67RyuZheng      2016-12-26 13:28:33 +08:00  1 | 
|  |      68GrahamCloud OP @isb 这个提议非常好 | 
|  |      69GrahamCloud OP @siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题 | 
|  |      70GrahamCloud OP @RyuZheng 这个会作为重点帮你搞定 | 
|  |      71ivvei      2016-12-28 17:12:07 +08:00  1 多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中…… | 
|  |      72GrahamCloud OP @ivvei 应该是几秒钟就该分析好了,是什么网站。 | 
|      73Hansah      2016-12-28 19:19:13 +08:00  1 | 
|  |      74ivvei      2016-12-29 09:58:52 +08:00  1 @GrahamCloud http://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页 | 
|  |      75ivvei      2016-12-29 10:08:52 +08:00  1 @GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题…… | 
|  |      76GrahamCloud OP @ivvei 昨天有一段时间是出现了网络问题,嗯。 | 
|  |      77GrahamCloud OP @ivvei 这个网站需要的数据,你看都能按你要求下来不。 | 
|  |      78ivvei      2016-12-29 16:18:58 +08:00  1 @GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。 | 
|  |      79GrahamCloud OP @ivvei 翻页是支持的,在你的控制台地址设置里面。 | 
|  |      80isnowify      2017-02-06 12:40:08 +08:00 via Android  1 很赞! | 
|  |      81cxl008      2017-02-06 12:54:23 +08:00  1 坐等开源 | 
|      83haoxuexiaoyao      2017-02-06 13:28:02 +08:00  1 这个怎么用呢 爬的数据能自己保存到数据库么 | 
|      84haoxuexiaoyao      2017-02-06 13:30:04 +08:00  1 一直提示链接超时 | 
|      85firldlove      2017-02-06 14:11:48 +08:00  1 刚刚用 https://www.v2ex.com/ 试了一下,结果是 ERR_CONNECTION_RESET | 
|  |      86ELLIA      2017-02-06 14:13:31 +08:00  1 一直出错啊~ | 
|  |      87GrahamCloud OP | 
|  |      88GrahamCloud OP @haoxuexiaoyao 爬的数据可以保存到数据库 | 
|  |      89GrahamCloud OP @isnowify 谢谢支持! | 
|  |      90GrahamCloud OP @cxl008 一直在上新功能,估计可预见的时间不会开源 | 
|  |      91isnowify      2017-02-06 14:42:51 +08:00 via Android  1 @GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果 | 
|      92lwd2136      2017-02-06 15:14:18 +08:00  1 @GrahamCloud http://www.whwater.com/gsfw/tstz/ 爬不动?执行出错 | 
|  |      93ELLIA      2017-02-06 15:15:34 +08:00  1 嗯,现在好像能用了…… | 
|  |      94ybh37      2017-02-06 15:25:48 +08:00  1 试了一下 百度新闻,失败 4 次 难道我姿势不对? | 
|      95sphawkcn      2017-02-06 15:42:30 +08:00  1 @GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。 | 
|  |      97GrahamCloud OP @isnowify 这个功能马上就会上 | 
|  |      98GrahamCloud OP | 
|  |      99GrahamCloud OP @sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio | 
|  |      100ELLIA      2017-02-07 13:22:04 +08:00  1 今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。 其次是目前只支持定时一天爬一次是吗?还是未来也这样。 最后就是我设了邮箱,但是没有收到邮件…… |