V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ericgui
V2EX  ›  程序员

爬虫:本人初级程序员,找个高人教/帮我写几个爬虫,有偿

  •  
  •   ericgui · 2017-12-27 03:13:52 +08:00 · 4693 次点击
    这是一个创建于 2528 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人初级程序员,技术有点水

    现在用 nodejs 写个小网站,需要用到爬虫,奈何水平不行,搞不定。

    其实这个数据量很小,每个网站就一个网页,但问题是,这些网页的数据都全是 ajax 请求或者各种交互加载的,那我就搞不定了。切盼高人教我。

    有兴趣的高人可以联系我 QQ 6-9-3-6-9-1-1-7-9

    因为我也是程序员,会按照市场价来,不压价。

    只有一个要求:用 nodejs 写。

    第 1 条附言  ·  2017-12-27 09:18:28 +08:00
    对了,某些情况下还要爬 app
    17 条回复    2017-12-27 14:45:33 +08:00
    hackxing
        1
    hackxing  
       2017-12-27 08:46:38 +08:00
    楼主给力推荐一个基于 webkit 内核的无头浏览器 phantomjs,自己动手吧。
    joshua7v
        2
    joshua7v  
       2017-12-27 08:53:34 +08:00 via Android
    puppeteer nightmare chromeless
    aino
        3
    aino  
       2017-12-27 09:15:23 +08:00
    我选择用浏览器插件实现,入侵式爬取
    RainFinder
        4
    RainFinder  
       2017-12-27 09:38:43 +08:00
    楼上说的很对,使用浏览器模拟访问,等完全加载完了就可以爬了
    Nioty
        5
    Nioty  
       2017-12-27 09:52:37 +08:00 via Android
    @hackxing 也可以用 Chrome Headless
    anasplrt34
        6
    anasplrt34  
       2017-12-27 09:57:18 +08:00
    用 nodejs 啊 这东西真不适合爬信息 异步转同步折腾死你 ww
    billows
        7
    billows  
       2017-12-27 09:58:15 +08:00
    @RainFinder
    @aino

    这种入侵式爬取,会要求用户安装插件才行吧?
    fenglangjuxu
        8
    fenglangjuxu  
       2017-12-27 10:02:21 +08:00
    casperjs 你值得拥有。
    Arrowing
        9
    Arrowing  
       2017-12-27 10:31:29 +08:00
    用 puppeteer 吧,phantomjs 的升级版
    vipper
        10
    vipper  
       2017-12-27 11:05:49 +08:00
    可以用 Python 爬吗
    ivechan
        11
    ivechan  
       2017-12-27 12:51:39 +08:00
    ajax 请求的一般更好爬, 这种都有 api, 数据格式更好, 直接拿出 chrome f12
    看 ajax 访问的 api 是什么就 ok
    myself659
        12
    myself659  
       2017-12-27 13:19:52 +08:00
    @Arrowing puppeteer 看上去不错
    oyosc
        13
    oyosc  
       2017-12-27 14:18:54 +08:00
    app 直接抓包找到你所需要的接口,然后用正则爬取你所需要的数据
    Telegram
        14
    Telegram  
       2017-12-27 14:27:39 +08:00 via iPhone
    @ivechan #11 对,api 返回的数据最干净
    599316527
        15
    599316527  
       2017-12-27 14:42:54 +08:00
    @Nioty hhh 正好刚刚撸了一个 https://github.com/599316527/NakeYouku
    599316527
        16
    599316527  
       2017-12-27 14:43:31 +08:00
    @anasplrt34 Promise, await/async 写起来爽着呢
    599316527
        17
    599316527  
       2017-12-27 14:45:33 +08:00
    Chrome 调试工具里看网络请求,然后自己拼参数就行了,顶多带上 cookie, useragent,没做反爬的这样就能抓了。做了反爬的用 chrome headless 方便些,自己分析反爬的策略有点累。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1085 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 117ms · UTC 22:36 · PVG 06:36 · LAX 14:36 · JFK 17:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.