V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
liangmishi
V2EX  ›  程序员

24 时跑爬虫程序,硬件自己组装, v 友们可有推荐

  •  1
     
  •   liangmishi · 2016-07-30 16:34:22 +08:00 · 20395 次点击
    这是一个创建于 3043 天前的主题,其中的信息可能已经有所发展或是发生改变。
    预算 2000 。
    能跑 scrapy 框架写的程序就可
    主要担心的还是长时间运行,硬件受不了。
    跪求推荐。。
    54 条回复    2016-08-02 14:58:29 +08:00
    prasanta
        1
    prasanta  
       2016-07-30 16:41:41 +08:00   ❤️ 1
    使用 scrapy 的话内存一定要够大!!!!
    liangmishi
        2
    liangmishi  
    OP
       2016-07-30 17:02:04 +08:00
    @prasanta 多大才算够大, 4G 够不够
    lbp0200
        3
    lbp0200  
       2016-07-30 17:03:53 +08:00   ❤️ 1
    xiaoshangmin
        4
    xiaoshangmin  
       2016-07-30 17:04:53 +08:00 via iPhone
    反正我 256 内存的连装都装不了
    prasanta
        5
    prasanta  
       2016-07-30 17:11:52 +08:00   ❤️ 1
    24 小时爬的话我选择 16g 内存
    wun
        6
    wun  
       2016-07-30 17:12:36 +08:00 via Android   ❤️ 2
    在图吧,你已经可以买三分之二个网吧了
    liangmishi
        7
    liangmishi  
    OP
       2016-07-30 19:00:53 +08:00 via Android
    @lbp0200 感谢,正是我想要的
    liangmishi
        8
    liangmishi  
    OP
       2016-07-30 19:01:12 +08:00 via Android
    @xiaoshangmin 256 都几年前的了。。
    liangmishi
        9
    liangmishi  
    OP
       2016-07-30 19:01:53 +08:00 via Android
    @prasanta 8g 先用,等有钱再来一条 8g
    liangmishi
        10
    liangmishi  
    OP
       2016-07-30 19:02:08 +08:00 via Android
    @wun 图吧是啥??
    shijingshijing
        11
    shijingshijing  
       2016-07-30 19:06:59 +08:00
    二手超低电压 Xeon 搭配 SSD ,稳定、功耗低、性能还挺 NB 的。芯片组注意选 H55 以后的, TDP 都是个位数,不要选 G4x 搭配 Core 2 以前的,功耗高。
    ytf4425
        12
    ytf4425  
       2016-07-30 19:09:04 +08:00   ❤️ 1
    @liangmishi 大耳朵图图吧
    专收垃圾
    对了你也可以试试洋垃圾,不过大概噪音还是蛮大的
    shijingshijing
        13
    shijingshijing  
       2016-07-30 19:09:26 +08:00   ❤️ 1
    不想操心推荐上 HP 的 Gen 8 ,配合超低电压的 G1610T ,内存可以自己加,觉得性能不行就把 CPU 换成低电压的 Xeon ,其实最关键的是 HP 把这个小机是按服务器的标准设计的,电源都是用的 Delta 等大厂带 Active PFC 高效能的,效率和可靠性远高于一般 PC 。
    liangmishi
        14
    liangmishi  
    OP
       2016-07-30 19:19:27 +08:00
    @ytf4425 看了下,感觉不会玩,还是乖乖去某东。。
    liangmishi
        15
    liangmishi  
    OP
       2016-07-30 19:29:32 +08:00
    @shijingshijing 确实是个可以考虑的方案,感谢~
    yeshang
        16
    yeshang  
       2016-07-30 19:40:15 +08:00
    爬什么?
    gainsurier
        17
    gainsurier  
       2016-07-30 19:44:01 +08:00
    树莓派,然后接硬盘,成本 300 元不到,还省电。
    lan894734188
        18
    lan894734188  
       2016-07-30 19:48:06 +08:00 via Android   ❤️ 1
    Dell 2950 x5460 x2. 4gx8
    lbp0200
        19
    lbp0200  
       2016-07-30 21:01:16 +08:00
    @gainsurier 刚从这个方案逃离,硬盘经常掉线
    UnisandK
        20
    UnisandK  
       2016-07-30 21:07:33 +08:00
    这预算租个独服不挺好,为啥要自己装硬件。。
    shijingshijing
        21
    shijingshijing  
       2016-07-30 21:43:29 +08:00
    @UnisandK 独服远程的话网络稍微不行就不好控制,本地的话还可以顺便再买两个大硬盘给大姐姐们住。
    shijingshijing
        22
    shijingshijing  
       2016-07-30 21:44:47 +08:00
    @liangmishi 开多线程爬的时候,还是选低频多核带超线程的,肉测过,这个比高频少核的要 NB
    liangmishi
        23
    liangmishi  
    OP
       2016-07-30 21:45:05 +08:00
    @yeshang 兴趣,爬什么不重要,可能是微博
    @gainsurier 感觉树莓派 hold 不住
    @lan894734188 没看懂。。哥。。。
    @UnisandK 是的,但是这个以后还会有用处的,比如放在家做做备份,或者其他,主要还是考虑到硬盘存储的原因,租的硬盘很小
    liangmishi
        24
    liangmishi  
    OP
       2016-07-30 21:50:09 +08:00
    @shijingshijing 非常感谢!!! 顺便给大姐姐们住~
    现在感觉你 HP 的 Gen 8 正好到我的预算,如果再加内存和硬盘,这预算就超得有点多了
    lan894734188
        25
    lan894734188  
       2016-07-30 22:00:45 +08:00 via Android
    @liangmishi 服务器 配置 加起来 1k 不到吧
    airqj
        26
    airqj  
       2016-07-30 22:10:44 +08:00   ❤️ 1
    爬虫又不计算密集型
    把钱用在内存上
    dongfang
        27
    dongfang  
       2016-07-30 22:31:32 +08:00
    这种 24 小时开机情况,不应该用服务器吗?
    阿里云、腾讯云等等很多呀。
    liangmishi
        28
    liangmishi  
    OP
       2016-07-31 00:07:55 +08:00
    @lan894734188 您说的服务器是指云服务器吗,如果以长远来考虑还是自己组装来得划算,毕竟我只是需要向外访问,不需要外网能访问进来
    @airqj 谢谢,提醒了我,没错,爬虫确实不是计算密集型的~感谢
    @dongfang 云服务器不划算的,如果硬盘要加大点就会显得很贵
    3dwelcome
        29
    3dwelcome  
       2016-07-31 00:14:08 +08:00
    我以前也考虑过, arm linux/android 或 intel atom cpu 平台比较合适,可以长期低功耗的运行,无风扇也挺稳定的。前提是你抓取后,并不需要大数据加工处理。

    爬虫 only 的,上传统台式机总觉得没啥必要。。
    UnisandK
        30
    UnisandK  
       2016-07-31 00:19:19 +08:00   ❤️ 1
    @liangmishi 这是 KS-4C 优惠版的配置,现在收一个大概 350 软的样子,做了免税续费是 11 欧每月,机房有加拿大和法国


    当然 2TB 硬盘依然觉得小的话那就没办法了
    em70
        31
    em70  
       2016-07-31 00:22:53 +08:00
    市面上的云服务器上行带宽都是不限且免费的,不用这个跑爬虫,还自己搭建?
    3dwelcome
        32
    3dwelcome  
       2016-07-31 00:24:59 +08:00   ❤️ 1
    云服务器 IP 是固定的,比如我以前爬 google map, 一段时间会封你的 IP ,在自己家搭建机器用 adsl ,重新拨号就换了个动态 IP ,比机房好,呵呵。
    liangmishi
        33
    liangmishi  
    OP
       2016-07-31 00:35:16 +08:00
    @UnisandK 果然不错性价比很高,其实我不只是有爬虫这个需求,如果以后不做爬虫了,这些硬件还可以改装成其他玩意,很好玩的,比如做个监控,比如可以放在家里可以控制某些智能的家具(虽然现在还没有)

    @em70 爬虫只需要能访问公网即可,市面上的服务器我也买了个,专门用来跑 web 还不错
    @3dwelcome 感觉自己搭建服务器很爽有没有~
    harry890829
        34
    harry890829  
       2016-07-31 00:41:23 +08:00
    我就问下,买个家用服务器是不是就不需要 nas 了?
    Marfal
        35
    Marfal  
       2016-07-31 02:30:18 +08:00 via iPhone   ❤️ 1
    楼主你还是上云吧,按小时付费的那种,等发现确实需要再买硬件或者是租独服,这样下来花不了多少钱也不用在这纸上谈兵。
    moosoome
        36
    moosoome  
       2016-07-31 09:15:07 +08:00
    @Marfal 做爬虫上云的话还买可切换 ip 的 vps ,配置代理池,非商用爬虫的话还是自建吧
    xiaocsl
        37
    xiaocsl  
       2016-07-31 10:03:37 +08:00
    @em70 并不是这样,我之前也这么认为,自从花钱买了美团云.
    em70
        38
    em70  
       2016-07-31 10:40:14 +08:00
    @xiaocsl 我跟你保证阿里云和 linode 都是上行带宽无限且免费
    unfurl
        39
    unfurl  
       2016-07-31 10:49:42 +08:00
    intel nuc 怎么样?
    SmiteChow
        40
    SmiteChow  
       2016-07-31 11:16:04 +08:00
    @em70 你说的是下行吧,上行怎么可能无限。
    em70
        41
    em70  
       2016-07-31 11:43:26 +08:00
    @SmiteChow 上行是对服务器而言,反正官方文档这样描述的,就是在服务器上的下载带宽是免费且无限的,很适合做爬虫.
    liangmishi
        42
    liangmishi  
    OP
       2016-07-31 12:31:17 +08:00
    @harry890829 其实就是台主机连根网线而已。。

    @Marfal 感谢您的建议

    @unfurl 这个可以有,不过感觉性价比没自己一块块组建起来的高

    @SmiteChow
    @em70 其实我觉得上云和自己组建差不了多少的,我考虑的有两点, 1 、自己组建以后还有别的用途, 2 、自己组建硬盘够大
    bzzhou
        43
    bzzhou  
       2016-07-31 20:03:38 +08:00
    爬虫对 CPU 、内存要求都很低, HP gen8 跑满 100M 带宽很容易
    exiaohao
        44
    exiaohao  
       2016-07-31 20:56:30 +08:00
    去收 E5-26xx 啊已经比 X56xx 还便宜了
    内存能上多大上多大
    可以考虑下二手服务器~

    自己组的话 6 系的 U+能上多大上多大的内存和固态盘,散热做好防尘做好
    我家的 Gen8 在没有空气净化器的屋子里已经快瘫了


    哦对了,爬虫这玩意,不是最重要的是网好网卡好么
    intel/broadcom 选一,千万别用螃蟹卡什么的~

    哦对对对对了
    之前用青云的 mongodb 存爬虫,一不小心 1T 空间就炸了,记得评估一下每个月大概能产生多少数据
    建议多上几块机械盘开 Raid 存数据,固态盘跑服务
    liangmishi
        45
    liangmishi  
    OP
       2016-08-01 00:45:31 +08:00
    @bzzhou 对宽带要求比较高

    @exiaohao 感觉不知道哪里收比较好,有风险~ 请教一下, 6 系列是值什么,京东上找了半天~
    感谢您的建议~~
    lan894734188
        46
    lan894734188  
       2016-08-01 08:58:45 +08:00 via Android
    @liangmishi 我的意思就是让你组装
    lazyhan
        47
    lazyhan  
       2016-08-01 15:00:59 +08:00
    @wun 图吧基佬
    chaichaichai
        48
    chaichaichai  
       2016-08-01 17:29:52 +08:00   ❤️ 1
    Gen 8 用户表示,如果放家里一定要换风扇,推荐猫头鹰的风扇,基本感觉不到风扇的声音
    liangmishi
        49
    liangmishi  
    OP
       2016-08-01 22:37:35 +08:00 via Android
    @chaichaichai 谢谢
    SlipStupig
        50
    SlipStupig  
       2016-08-02 07:47:53 +08:00
    @liangmishi 云计算是便宜的,可以按需收费,你放家里面现在天气这么热,你想 7*24 不停的运行空调肯定是要开的,每天机器都是开着的,算下来电费要多少钱啊,至于存储有免费的云存储,收费的也就是几块钱 1T ,你还要办宽带估计你的说法是带宽需求比较大最少要 100M 吧,还要换个好点的路由器( 90 块钱的 TP-LINK 完全是废物),你还得买台机器,更要命的事情你机器估计连容灾备份都没有,突然断电就数据全丢了。大概算一下你在家里的费用

    硬件成本:机器 2k+路由器 1k(美国网件)
    消耗成本: 1 )带宽: 300/mon 2 )电费: 360/Mon (电脑 7.2 ( 0.3*24 ),空调 4.8 ( 0.6*8 ,如果空调开整天的话更多),一天电费:)

    结论:你一次投入就要 3000 ,然后每个月还要额外投入 660 块钱,你觉得划算么?
    msg7086
        51
    msg7086  
       2016-08-02 10:49:39 +08:00
    @SlipStupig 拍脑袋算成本也是醉了。
    机器配 3k ,双网卡级联 5 嘴交换机,主机自己就能做软路由,根本不需要 1k 的网件。
    (就算你买网件,我 3 年前买的 3700v2 也只要 50 刀,折 300 多,性能足够强劲几个月不用重启。)
    电脑的电费就更扯淡了,就说 i7-6700 的机器 24x7 满载也只有 100w 左右这 0.3 是哪来的?
    热量的话,我现在这边白天天气 35+,室内无空调无日晒保持在 28 以下,电脑 24x7 大概一半时间满载运行,也没见有多热啊。哦,还有一块 GTX 独显和 7 块硬盘在一直跑着呢。

    反过来说,家里不开服务器的话,就不用买路由不用装宽带不用开电脑不用开空调了是不?

    @liangmishi 电脑硬件就是设计成长时间运行的。大厂品牌 24x7 运行个几年不成问题。
    手头看的 24x7 运行最容易坏的就是硬盘了。考虑上 SSD RAID 或者 HGST 。
    liangmishi
        52
    liangmishi  
    OP
       2016-08-02 13:50:54 +08:00
    @SlipStupig 谢谢您的建议,开这样一台机子就跟多开两台笔记本的热量等同吧,空调屋下不影响的。
    虽然一次性投入的比租云多很多,但是从长远的角度来看,感觉很值得

    @msg7086 SSD+HGST , SSD 跑程序, HGST 存数据。就是不知道这些主板是否都有支持 Linux 系统?
    msg7086
        53
    msg7086  
       2016-08-02 14:51:54 +08:00   ❤️ 1
    @liangmishi 不是主板支持 Linux ,而是 Linux 支持主板。
    如果不放心那就买前一代的产品咯。
    或者弄个新点的内核就好。
    liangmishi
        54
    liangmishi  
    OP
       2016-08-02 14:58:29 +08:00
    @msg7086 感谢,明白了~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5494 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 08:07 · PVG 16:07 · LAX 00:07 · JFK 03:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.