|  |      1llhh      2014-10-30 15:03:07 +08:00 希望早日出来这样的东东,见过卖数据的倒是。 | 
|  |      2oott123      2014-10-30 15:15:13 +08:00 via Android 这…合法么… | 
|  |      3luw2007 OP 看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.  对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题. | 
|  |      4Saaee      2014-10-30 15:29:43 +08:00  1 我记得火车头提供出售采集规则的服务。 | 
|  |      5puyo      2014-10-30 15:30:10 +08:00 我给学校一个部门做一个爬取新闻数据的爬虫(用于在另一个小型 web 系统上,我打算假期用 node.js 重写,顺便学习一下 node.js )。有个老师想让我做一个非编程人员使用的平台,通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件,不知道好不好用。 | 
|      6linzy      2014-10-30 15:31:04 +08:00 规则编写很难统一吧 | 
|  |      7luw2007 OP @linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.  初步构想: 包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作. | 
|  |      9luw2007 OP | 
|      10Doubear      2014-10-30 17:23:52 +08:00 昨天用PHP写了个爬虫抓一个网站的数据,几千条几下搞完,还保存图片的   但是还是感觉慢  主要是写得慢~~~ | 
|  |      11luw2007 OP @Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取. 其实主要是集中爬虫. 避免大家都在重复写同样的内容. | 
|      12linzy      2014-10-30 18:15:30 +08:00 火车头对一般数据采集应该可以,不过需要一些学习成本。比较不可接受的是对页面js解析,我记得好像不可能,至少需要配合类似fiddler的。 | 
|      13ryan10107      2014-10-30 19:34:03 +08:00 我也和楼主有过同样的想法,做的是平台,然后平台促成一个供求关系。例如求某个网站的数据,如淘宝某店铺所有商品数据到excel表,这份excel表就是客户需要的商品,然后有爬虫开发者根据平台提供的API写好抓取规则,例如某宝贝标题之类的,然后由平台根据开发者写好的抓取规则,去完成抓取的过程,再生成客户需要的excel表。 | 
|  |      14songxajh      2014-10-31 09:26:20 +08:00 cool,but who care? | 
|  |      15ziyunhx      2014-10-31 09:44:55 +08:00  1 | 
|  |      16ziyunhx      2014-10-31 10:06:43 +08:00 输入的是一个xml的规则,输出json数组;目前支持的规则包含了 Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile 等绝大多数网络和浏览器操作的模拟。 | 
|  |      18R4rvZ6agNVWr56V0      2014-11-01 00:52:08 +08:00  1 | 
|  |      19wangleineo      2014-11-01 01:47:00 +08:00 @luw2007 我觉得更有价值的是爬虫规则的人工维护。 写过爬虫的都知道,面对网页的结构调整和特征变化(比如元素id,className变了),爬虫很容易失效,解决这个问题有两个办法:1. 写出非常智能、健壮的爬虫;2. 人肉更新爬虫规则。现在看起来1似乎不太乐观,2可以用软件反复测试来发现失效,但是更新规则还是需要人的参与。所以如果有这样一个平台,提供爬虫源码(或者语言无关的抓取规则),同时鼓励所有用户自主更新已经失效的规则,用wikipedia众包的模式尽最大可能维持爬虫的有效性,还是蛮有价值的。 但是悖论在于,如果被爬的网站不希望被爬,那这个平台让爬虫变透明了,网站会故意打破抓取规则,最后变成‘看谁改的快’的游戏;如果网站希望自己被扒,那就开放API好了,爬取多麻烦。 | 
|  |      20luw2007 OP @wangleineo @ziyunhx 很多网站不会提供api,同时也不阻止爬虫爬取。比如一些地方政府网站, 或者一些公益网站。 这些网站可能开发完毕之后就很少改动界面结构, 但是数据内容却一直在不断更新。 它们不会提供api给开发者,或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高, 并且将开发成本转嫁给消费者, 消费者提供一定的报酬的规则维护者。 说到底, 只是提供交流的平台。 具体维护还是需要各个开发自行去维护。 | 
|  |      21ziyunhx      2014-11-03 15:26:56 +08:00 @wangleineo @luw2007  页面智能抽取目前我们这边也有一套比较完整的算法,正确率在80%以上;今后可能也会开源。可以持续关注下。 | 
|  |      22luw2007 OP 大家可以专注下 binux做的 https://github.com/binux/pyspider |