1
zzfwusa OP 大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,进度较慢,
所以想利用网络快速获取大量相关企业信息 (公开且合法的信息,如所在行业,电话,地址等等) 请问基于何种架构及工具可以快速实现? 本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行? 请各位高手不吝赐教~~ |
2
richiefans 2013-12-29 06:44:38 +08:00
应该是找到目标站点 定向抓取吧
python有个爬虫框架 Scrapy |
3
dong3580 2013-12-29 09:29:18 +08:00 via Android
请求工商部门的网站抓取。不过你要是批量恶意这种行为算不算违法,小心请你喝茶。
|
4
xxwar 2013-12-29 10:50:35 +08:00
你可以抓阿里巴巴或者慧聪网或者。。。。。。。很多很多类似的企业黄页网站
或者花钱买数据,别人抓好现成的。 这种黄页网站基本是滥大街了,不知道你们公司要再做一个干吗。 |
5
yylzcom 2013-12-30 11:36:38 +08:00 via Android
用火车采集器,很容易上手
|
6
dbas 2014-01-01 22:23:38 +08:00
我也正在收集中,我手上才200W....
|