一个服务器只有几台,最大内存不到 16G 的软件公司 想搞爬虫、大数据,抓取的数据库主要用 SQLSERVER 。 搞数据抓取的只有一个新人,这算什么样的公司
|      1crazykuma      2017-04-24 14:38:12 +08:00  5 老板脑洞比虫洞还大的公司吧 | 
|  |      2webjin1      2017-04-24 14:40:05 +08:00 via Android 走人 | 
|  |      3crab      2017-04-24 14:42:32 +08:00 爬 V2 吗 O(∩_∩)O | 
|  |      4qiayue PRO 搞爬虫没问题啊 搞大数据就你也没有提供更多的信息,不评论 | 
|  |      5jarlyyn      2017-04-24 14:46:48 +08:00 爬虫不是要 ip 池和带宽么? | 
|      6LU35      2017-04-24 15:00:32 +08:00 快走人,下一题. | 
|  |      7murmur      2017-04-24 15:01:50 +08:00 先搞起来骗到风投,没差 | 
|  |      8gouchaoer      2017-04-24 15:02:24 +08:00 最重要的是钱给够了,为什么不能搞? 看不起 sqlserver 么,比 mongo 靠谱 爬虫又咋吃 cpu 和内存 | 
|  |      9alwayshere      2017-04-24 15:02:31 +08:00 爬虫 16G 貌似也行 | 
|      10ryanzyy      2017-04-24 15:03:51 +08:00 看主要的开发者是否有实力吧 初期服务器弱没问题啊 | 
|  |      11server      2017-04-24 15:06:45 +08:00 服务器够了,剩下自己发挥 | 
|  |      12Aliencn      2017-04-24 15:06:49 +08:00 有志向的公司 | 
|  |      13marlboros      2017-04-24 15:07:55 +08:00 搞 资金流到位 升级服务器 老板跟你提效率问题了吗? | 
|  |      14Hozzz      2017-04-24 15:13:21 +08:00  1 单从数据库方面来说, sqlserver 现在可是三大主流数据库之一... | 
|      15cnfzv OP | 
|  |      17jarlyyn      2017-04-24 15:20:39 +08:00  1 | 
|      18cnfzv OP @gouchaoer 那个 java 新人就是我,  spring 都不会用,也就用个 webmagic 抓俩网站,数据库服务器都是我在弄,基本什么都干。工作不重,但是很杂 | 
|      19yanzixuan      2017-04-24 15:26:19 +08:00 要是用 erlang , 16G 应该够用了。。。掩面跑开。。。 | 
|  |      20ytmsdy      2017-04-24 15:40:15 +08:00 估计老板被人忽悠了,觉得手里有个十几个 G 的数据,然后分析分析就是大数据了! | 
|      22sweb      2017-04-24 15:47:12 +08:00 主要看钱,楼主纠结啥? | 
|  |      23benbenlang      2017-04-24 15:48:28 +08:00 老板被卖服务器的忽悠了,,,你要再和他争辩他会觉得你能力不行。。。 | 
|      25firefox12      2017-04-24 16:00:47 +08:00 via iPhone 512M 主机 每天 20 分钟扫描京东全网,不过那是 5 年前了。在 512m 主机上 每天还完成 1800 万房产数据的排序。 我不觉得这样的设备有什么差的 现在端口支持 reuse 。抓多少数据只是受限于网络和 cpu | 
|  |      26towser      2017-04-24 16:01:50 +08:00 公司名字叫什么 | 
|      27cnfzv OP @qqpkat2 我就是那个 java 新人,开发水平比较低,数据库基本维护就是我在弄,服务器基本没人管理,我大概做一点简单的维护,里面跑的都是公司正在用的项目程序,需要什么东西自己一点点在上面研究部署。 | 
|  |      29Felldeadbird      2017-04-24 16:10:13 +08:00 这要看你们要爬什么数据了。 16G 内存,可以实现很多东西。 我司的爬虫才 1G 内存。主要爬对手商品信息,动态。 楼主你这种没有详细信息的内容,真让人为怀疑你是为了喷而喷。 | 
|      30cnfzv OP @benbenlang 并没有,都是好久之前的服务器,起码 2011 年之前的吧 | 
|      31stabc      2017-04-24 16:18:48 +08:00 如果是专业领域的大数据也不一定需要非常大容量啊。 | 
|  |      32bravecarrot      2017-04-24 16:22:13 +08:00 大数据 不一定是数据量很大很大 | 
|      33cnfzv OP @Felldeadbird 三台服务器,全是 windows , 6 、 7 年前的机器吧,两台在外网的都是公司正在用的项目,不敢大折腾,剩下的一台是个 8g 内存的塔式,抓数据、入库、数据处理、数据查询都要在上面进行。带宽不到 1MB 吧,其实能跑的动,只是我水平不够,也只有我去弄爬虫,心累。 | 
|      34cnfzv OP | 
|      35simapple      2017-04-24 16:38:20 +08:00 也行 先跑着呗 等不够用了 上云 | 
|  |      36reus      2017-04-24 16:39:56 +08:00  6 水平不足赖硬件…… 16G 不小, SQLServer 不差,做爬虫一个人也够。 问题在于你,你能力不够,又不肯学习,才赖硬件,赖数据库,赖人手,赖公司。 抱歉,实在不知道你有什么可以抱怨的。 | 
|  |      37deadEgg      2017-04-24 16:42:57 +08:00 16G 真的够了,你怕内存爆了,很多框架都有类似于 placeholder 的机制。 你用心去做绝对搞得出成果的,不过可能时间上和过程上比较困难一点点而已 | 
|  |      38Jimrussell      2017-04-24 16:46:25 +08:00  1 大家没注意到楼主说的是“软件公司”么。很明显老板想开拓新业务,然后挑了楼主在试水啊。花钱让你涨技术涨经验,这样的好事并不多的好吗。 | 
|  |      39windfarer      2017-04-24 16:47:59 +08:00 楼主觉得多大的内存才能跑爬虫。。 | 
|      40cnfzv OP @reus 心情不太好,抱怨下能让自己好过点就碎嘴一会吧。我并不完全算开发吧,要研究爬虫,要去查数据库,比对数据字典导数据,偶尔兼职测试按要求去测业务。做的一堆东西从来没有开发文档,口头需求,现做现改,所有东西全靠自学,不会的全靠百度,最近又弄了堆破事,有心无力,允许我抱怨下吧 | 
|      42killerv      2017-04-24 16:59:33 +08:00 多大的业务? 16G 应该够了啊 | 
|      43cnfzv OP @killerv 只是爬虫 8g 都够了,可惜还有很多乱起八糟的东西跑着,而我也不只是去弄开发。我只是心情很不好,而这个公司发展方向确实也不太好,他们主要靠业务吃饭,开发并不重要。 | 
|  |      44klxq15      2017-04-24 17:10:59 +08:00 via Android 大数据也没规定多大数据就算大数据啊。。。 | 
|      46we3613040      2017-04-24 17:24:51 +08:00 听着挺爽的,不过就是发展不怎样,混日子还行 | 
|  |      47Felldeadbird      2017-04-24 17:28:20 +08:00 8G 的服务器,足够你用爬虫了。只是带宽出口 1M ,太少了。估计爬起来效率很低。你另外还有 2 台服务器,可以让他们做爬虫业务。反正我司 1U1G 100M 的服务器,每天爬 100 万的数据都没任何压力、一部分展示业务也在这台机器上进行。楼主自己做参考。 | 
|  |      48bk201      2017-04-24 17:29:13 +08:00 window 这内存不够吧, linux 倒是可以。 | 
|      49eDeeraiD0thei6Oh      2017-04-24 17:29:23 +08:00 一个小目标 我觉得楼主多虑了 | 
|      50cnfzv OP @Felldeadbird  redis 队列,数据库、爬虫都在这一个 8g 上面,另外两个机器也跑着爬虫,但是得用这个机器入库,另外两个机器跑不动 redis | 
|  |      51Felldeadbird      2017-04-24 17:32:31 +08:00 补充一点,服务器数据是定时删除的。如果楼主公司业务需要展示以前的数据,在数据大了的情况下,单机肯定是不够用的。但是不论怎样也好。刚开始的时候,数据量不大就别去担心硬件这个事情了。等到不够用的时候,直接向上面申请。他们不审批也没关系,让他们继续等待缓慢的服务…… | 
|  |      52brucedone      2017-04-24 17:43:01 +08:00 很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。 | 
|  |      53hundan      2017-04-24 17:47:11 +08:00 via Android 我觉得楼主这样完全可以单干,自己开公司…… | 
|  |      54jiangzhuo      2017-04-24 17:52:46 +08:00 16G 没什么问题吧,如果爬垂直领域的, 32 台 500M 的爬虫也挺好,另外谁有国内比较便宜的代理池子给推荐一下。 | 
|  |      56gamecreating      2017-04-24 18:30:02 +08:00 跟机器有关系吗?   PC 电脑一样采集.. | 
|      57lyhiving      2017-04-24 18:52:07 +08:00 via Android 有内幕,估计就是爬了“大数据”三个字 | 
|      58fermiz      2017-04-24 18:57:21 +08:00 我们学校给论坛的都 64G 。。。。 | 
|  |      60SlipStupig      2017-04-24 19:10:14 +08:00 2G 内存+2Core 每天抓取上千万的电商数据..... | 
|  |      61XDA      2017-04-24 19:33:18 +08:00 via iPhone 对比我们自建机房上百台物理机啥也没干不好,每月几十万的服务器租赁费用,没有对比就没有伤害 | 
|      62jyf      2017-04-24 20:33:20 +08:00 内存不是问题 主要是出口 ip 另外我想楼主可能是想吐草大数据这三个字 | 
|  |      63wdlth      2017-04-24 21:34:47 +08:00 配置不是大问题,数据的处理才是…… | 
|  |      65sagaxu      2017-04-24 21:58:29 +08:00 我手上 4 台专用的,没有内存低于 32G 的,虽然只用了不到 4G ,但是公司采购不到这么低内存的双 CPU 机器 | 
|  |      66roist      2017-04-24 22:02:02 +08:00 听起来像是 老板有亲戚在当大官,能拿到政府补贴或者订单的 | 
|  |      67scofieldpeng      2017-04-24 22:11:33 +08:00 我家里一个上网本, 2g 内存, atom 的 cpu , 250 的 sata 硬盘,爬了 几千万的数据,还做分析。你这硬件我都很口水好么== | 
|      68hpeng      2017-04-24 22:28:48 +08:00 via iPhone 港真,爬个数据要给我这么大内存我就偷笑了,又不在这台机上处理。我就不信要多差的技术的爬虫才会用到 16g 内存不够用的,带宽给足,什么都好说。 | 
|  |      69victory      2017-04-25 04:05:37 +08:00 可以去华强北组一个二手服务器来他个 64G 内存 而且 2011 年服务器肯定用的 DDR3 内存 现在 DDR3 洋垃圾内存白菜价 | 
|  |      71Leafove      2017-04-25 08:18:03 +08:00 员工工资都发不起结果 CEO 整天在整人工智能的公司我都见过 | 
|  |      72phpiis      2017-04-25 08:23:59 +08:00 先爬再说啊,赚到钱了自然可以游说升级服务器 | 
|  |      73dsg001      2017-04-25 09:05:56 +08:00 家用 pc 都不止这个配置吧 | 
|  |      74wizardoz      2017-04-25 09:10:55 +08:00 为什么不可以搞?硬件等到不够用的时候再升级有什么问题? | 
|      75jianghu52      2017-04-25 09:31:08 +08:00 跟你说个真实的事情。我们公司,现在 3 台机器。 4G 内存内存,两台 python ,一台 java ,用了 2 条联通,一条电信。一个月,一台机器爬两百万条数据。你知道怎么搞定 IP 池的么。断线换 IP ! | 
|      79cnfzv OP | 
|      80cnfzv OP | 
|  |      81zhengxiaowai      2017-04-25 10:10:28 +08:00 管爬不管修 | 
|  |      83xiaoyu9527      2017-04-25 10:12:38 +08:00 @jianghu52 断线换 IP 的效率好么? 每次重播都是不同的 IP 么? | 
|  |      8410years      2017-04-25 10:27:17 +08:00 反正爬数据是够了. | 
|  |      85xiaoyang7545      2017-04-25 10:27:19 +08:00 现在。。大数据这个东西。。概念模糊。。多大的数据才算大数据。。所以好多人喊着做大数据的口号,其实做的就那么点屁大的东西 | 
|      86firefox12      2017-04-25 11:11:19 +08:00 @razrlele 下面很多人都做到了,不难的,爬京东是垂直网站,做好匹配 很快的, cpu 会是瓶颈,用正则和不用,性能差别不小,但是对垂直网站而言简单。 那时候京东不过 50 万种商品,现在大概几百万种了。 | 
|  |      87herozzm      2017-04-25 11:45:50 +08:00 面对 lz 不想说什么了 | 
|  |      88Tunar      2017-04-25 12:02:44 +08:00 数据具体什么级别啊 | 
|  |      89mathgl      2017-04-25 12:11:05 +08:00 sqlserver 挺好的,没啥问题,当然要是没钱买是另外一件事了。 | 
|  |      90allgy      2017-04-25 14:01:57 +08:00 我们服务器 2G | 
|  |      91alphadog619      2017-04-25 14:41:54 +08:00 凑热闹的公司 | 
|      92BlackCat02      2017-04-25 18:11:42 +08:00 16G 是够磕碜。。公司分的开发机还有 32G 内存 | 
|  |      93allansun      2017-04-25 19:11:45 +08:00 在用 512M 内存小机器跑 Redis 的人飘过。。。。 | 
|  |      94imherer      2017-04-25 19:17:45 +08:00 我们服务器全是 1CPU 1 内存的 | 
|      96Nitromethane      2017-04-25 19:29:06 +08:00 是比我们实验室的机器少点~ 1000 万的量还不够大数据的标准~实验室机器上屯了 15T 脱敏的数据。。 |