V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
hexor
V2EX  ›  酷工作

[外包] [知乎爬虫] 爬若干个用户的知乎回答和文章数据

  •  
  •   hexor · Apr 4, 2020 · 4687 views
    This topic created in 2228 days ago, the information mentioned may be changed or developed.

    需求

    爬取若干个指定知乎用户的所有的回答(某些用户的回答可能超过 2000 条)和所有文章内容并重新加工处理后保存。

    回答

    爬取这个回答的“问题”和该用户对于这个问题所发布的“答案”。

    文章

    爬取这个文章的"标题"和"正文"内容。

    格式

    “问题”和"标题"是普通文本即可。

    “答案”和"正文"需要是 html 格式,即这一段内容要可以直接插入到网页代码中并能正常显示。

    其他内容

    图片

    答案”和"正文"中的图片需要被下载,然后以新的地址重新插入到正文中,不需要去水印。

    对于“答案”和"正文"中的图片链接,需要下载该图片并重新命名然后保存到文件夹中,然后将原“答案”和"正文"中的图片链接替换为xxx.com/xxx/xxxxxx.jpg/png, 确保图片能够在正文中被正确显示。

    超链接

    直接保留即可

    备注

    • 不限制爬虫的技术实现。
    • 只需要最后的爬到的结果,不需要爬虫的代码。
    • 最后的结果需要保存成 csv 或者 excel 或者 PHP 数组的格式交付。

    价格

    500 人民币

    时间

    1 周以内

    联系 wx

    hexor_

    21 replies    2020-04-06 16:08:12 +08:00
    hhhfffhhh
        1
    hhhfffhhh  
       Apr 4, 2020 via iPhone   ❤️ 1
    少打一个 0
    aWangami
        2
    aWangami  
       Apr 4, 2020 via Android
    7 天除 500 相当于每天 80 都不到,这价格相当公道呀
    jugelizi
        3
    jugelizi  
       Apr 4, 2020
    来羞辱的?
    楼下怎么说
    murmur
        4
    murmur  
       Apr 4, 2020
    500 快钱拿到知乎的核心数据?若干后面没括号呢,没写某若干可能超过几万人
    limuyan44
        5
    limuyan44  
       Apr 4, 2020
    鬼鬼,这工作量也太小了,楼下上。
    tojonozomi
        6
    tojonozomi  
       Apr 4, 2020
    @hhhfffhhh 多一个 0 都不一定有人干吧
    wsz66
        7
    wsz66  
       Apr 4, 2020 via Android
    赚大了,让给楼下了
    0xABCD
        8
    0xABCD  
       Apr 4, 2020 via Android
    500,高薪啊
    fengfuliu
        9
    fengfuliu  
       Apr 4, 2020
    知乎是拒绝蜘蛛协议的 爬的话很有可能违法
    ZeoKarl
        10
    ZeoKarl  
       Apr 4, 2020 via iPhone
    空手套爬虫?
    fhsan
        11
    fhsan  
       Apr 4, 2020
    这种网上一大把,自己找找改改就有

    比如什么抖音直播打赏时时统计,就算有,小心坐牢
    superrichman
        12
    superrichman  
       Apr 4, 2020 via iPhone   ❤️ 1
    这中间商赚了多少差价?
    DJI360
        13
    DJI360  
       Apr 4, 2020
    价格不清楚,不过你这个需求感觉不像正经事
    airqj
        14
    airqj  
       Apr 4, 2020 via Android
    哈哈 四年前的问答数据楼主要吗
    DeWhite
        15
    DeWhite  
       Apr 4, 2020
    若干是多少呀,就算写完了能爬的量也有可能超过若干。
    还得优化,500 快太多就不好爬了得改。
    hexor
        16
    hexor  
    OP
       Apr 4, 2020
    工作已经完成,顺便回答以上问题。

    我爬的号都是公司自己的号( 10 个左右),现在想把这些号回答的内容保存下来放到我们自己公司的网站上,只是有几千个回答,知乎又不支持数据导出所以我只能这样。

    我开这个价也不是想请人来写代码,因为我知道有很多人在爬知乎的数据,所以我只是找人顺便用他已经做好的工具帮我爬一下而已。
    所以 500 这个价格,就是 2 个小时工作量左右,工作量主要是在跟我沟通而不是实现技术细节。

    这个外包已经做完了,工作时间也就 1 个小时左右。
    jayli517
        17
    jayli517  
       Apr 5, 2020
    嗯,只要是有现成知乎爬虫的,提供一下数据就可以了。我这有现成爬虫团队的,感觉以后也可以接点小活给兄弟们增加点外快
    hsluoyz
        18
    hsluoyz  
    PRO
       Apr 5, 2020
    知乎没有反爬措施么
    changwei
        19
    changwei  
       Apr 5, 2020
    这网站里面就有知乎的员工,你这价格不怕人家员工直接加 vx 来找你聊天,然后发聊天记录给知乎公司的法务看?
    TimeRain
        20
    TimeRain  
       Apr 5, 2020
    吃牢饭警告
    efaun
        21
    efaun  
       Apr 6, 2020
    没有法律直接规定爬虫违法吧?我看到的案例,都是拿爬的数据盈利或者对主站造成了干扰才判刑的,现在有新规定了吗?
    @changwei #19
    @TimeRain #20
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3092 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 115ms · UTC 14:56 · PVG 22:56 · LAX 07:56 · JFK 10:56
    ♥ Do have faith in what you're doing.