V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
a412501665
V2EX  ›  酷工作

爬虫工程师兼职 (远程岗位) 3K 到 5K

  •  
  •   a412501665 · 161 天前 · 4272 次点击
    这是一个创建于 161 天前的主题,其中的信息可能已经有所发展或是发生改变。
    语言不限制 不一定非得用 Python 两点要求 加解密必须精通 有集群 分布式项目经验
    工作内容 需要爬取一些特定的文章 视频 图片类 且分类好 因为由于不一定从一个网站上采集 所以找个兼职的大佬
    可以签电子合同 由于公司的业务 可能今天给你发网址 第二天你就要采集好文章(网站难度不高 反爬措施简单)我知道薪资有点低 但是难度低啊 主要是要求有分布式集群爬虫经验


    邮箱 [email protected]
    63 条回复    2023-10-10 15:18:29 +08:00
    Features
        1
    Features  
       161 天前
    中译中:
    输入:我知道薪资有点低
    输出:管你来不来,我就是要恶心你一下
    a412501665
        2
    a412501665  
    OP
       161 天前
    @Features 还行 这个价格 兼职么 网站又没什么反爬措施 难度不高
    GeruzoniAnsasu
        3
    GeruzoniAnsasu  
       161 天前
    @Features 输入:「由于不一定从一个网站采集,所以找个兼职」
    ihciah
        4
    ihciah  
       161 天前 via iPhone   ❤️ 3
    有个疑问:收入数额会影响量刑吗?
    a412501665
        5
    a412501665  
    OP
       161 天前
    @ihciah 量刑啥啊 都是公开的文章 就是频繁访问会被封
    a412501665
        6
    a412501665  
    OP
       161 天前
    @GeruzoniAnsasu 对 老哥你理解的没问题 就是单个的爬虫一两百块钱 每次找淘宝 都得说一遍 老板烦了 哈哈 对接太麻烦了
    OutOfMemoryError
        7
    OutOfMemoryError  
       161 天前   ❤️ 1
    @a412501665 #5 这已经很刑了,只要对方有反扒意愿,你还解决了,那就刑了
    a412501665
        8
    a412501665  
    OP
       161 天前
    @OutOfMemoryError 要是遵从肉包丝协议 就没爬虫的事了 看自己咯 反正目前暂时是找的淘宝 对接太烦了
    ik
        9
    ik  
       160 天前 via iPhone   ❤️ 2
    请教 加解密 不算反扒措施吗?
    zhuefyy
        10
    zhuefyy  
       160 天前
    楼上同问
    locoz
        11
    locoz  
       160 天前   ❤️ 3
    看描述一眼就知道大概率基本都是需要的量不怎么大、人工手动收集嫌麻烦的需求,且目标网站基本只需要写解析和拼请求信息,反爬措施也基本仅限于 IP 限制,少数会有点简单的、一搜索或 hook 就能找到位置的逆向。这种简单需求招个实习生都能做,只是效率不够高,远程 3-5K 找个熟练工很合理,本质上就是找了个人固定下来外包做点散活而已。

    而且这种明显量不大的,只要不是使用上有问题,根本不存在什么刑不刑的事,正常的用户行为罢了。说白了,量不大的情况下,一群人人工复制粘贴一样能达到效果,反爬是个啥?爬虫在这种场景下起到的作用仅仅是提高一些效率而已,无法起到决定性的作用。见啥都搁那“刑”,咨询过做这块的法律行业人士了吗?

    只能说非细分领域且未严格分割版块的社区就这点不好,容易出现一些不了解特定细分领域但指手划脚的评论,甚至有时候还会带起莫名其妙的节奏,发个细分领域的主题感觉累得很...
    aulayli
        12
    aulayli  
       160 天前
    钱不多,但是可刑。
    swim2sun
        13
    swim2sun  
       160 天前
    "今天给你发网址 第二天你就要采集好文章"
    a412501665
        14
    a412501665  
    OP
       160 天前
    @locoz 是的 粘贴复制的话 给新媒体专员增加的工作量太大 而且搜集信息麻烦 之前已经试过了 都是一些简单的活 纯纯重复性劳动 就是需要人去收集整理
    a412501665
        15
    a412501665  
    OP
       160 天前
    @ik 前端请求的信息凭证 正常开发 都会做一些加密 加盐之类的吧 虽然我不是程序员 但是我也是理解计算机的开发流程的 如果拿不到凭证 没办法请求一些信息 一些文章需要登录后才看全文
    a412501665
        16
    a412501665  
    OP
       160 天前
    @swim2sun 举个例子大佬 我们要爬小红书 今天 XXX 话题的主要热门文章 然后明天换了个 XXX 话题 加了个要求 加上每个文章的前十条热门评论 我不觉得有多麻烦
    Lyxxx
        17
    Lyxxx  
       160 天前
    爬虫写得好,牢饭吃到饱
    kingfalse
        18
    kingfalse  
       160 天前 via Android
    首先小红书在你看来抓取难度大不大? 1-5 级难度的话。能到几?
    tuomasi
        19
    tuomasi  
       160 天前
    建议去招个 java ,顺便让他干点爬虫的活
    a412501665
        20
    a412501665  
    OP
       160 天前
    @kingfalse 淘宝报价是 300 根据报价确定难度不高
    a412501665
        21
    a412501665  
    OP
       160 天前
    @tuomasi 有 java 他不会写....
    automationIan
        22
    automationIan  
       160 天前 via iPhone
    给你推荐个技术 rpa
    可以模拟人的行为获取网页数据
    如果搞不定可以找我
    456789
        23
    456789  
       160 天前
    白菜价如果需求不着急可以等歌 2 到 3 年,下一代的计算机人才入场真的就白菜价时代了
    a412501665
        24
    a412501665  
    OP
       160 天前
    @456789 现在淘宝就是白菜价 关键问题是他们交活太慢了 而且每次都需要跟他们重复说明需求 换一个客服就得解释半天 太麻烦了
    456789
        25
    456789  
       160 天前
    既要又要属于民族特色了都
    a412501665
        26
    a412501665  
    OP
       160 天前
    @456789 你要是写过爬虫 就知道是合理价格 没写过 觉得爬虫很高深 给这点钱 怎么干啊 需求还一堆事 自己没那技术 觉得难度大 你大可以不做 不是做爬虫的 就别乱说 给的价格你觉得不合理 你可以去看看别的 你不做 淘宝一堆人做
    fyxtc
        27
    fyxtc  
       160 天前
    你要的数据 pc 端能全覆盖吗,我刚看了下小红书热门话题的第一个,app 和 pc 端显示数量不一致
    456789
        28
    456789  
       160 天前
    发帖子影响你了吗?不想说专业上的东西是因为说一点都算给建议,我太低端了,怕影响到大老板的业务目标,但是我乱说又不影响你业务目标
    musi
        29
    musi  
       160 天前 via iPhone
    小红书可是明确反爬的哦,确实很刑,另外站内应该有小红书的人,当心根据 ip 找上门
    a412501665
        30
    a412501665  
    OP
       160 天前
    @fyxtc 这个不清楚 之前我看运营专员都是发的 PC 端的连接 爬个差不多就行 又不爬所有的 够发公众号就行了
    a412501665
        31
    a412501665  
    OP
       160 天前
    @musi 这个不清楚 人工一个个的复制 太麻烦了 招个人专门搞这种事 算上五险一金成本太高 还不如找个兼职最多 5K 搞定
    Rrrrrr
        32
    Rrrrrr  
       160 天前
    去淘宝找吧,5k 找个新手还差不多,反正也不是长久的活
    a412501665
        33
    a412501665  
    OP
       160 天前
    @Rrrrrr 新手可没有 5K 现在这行情 四年 JAVA 在济南 8K 浪潮外包都不要 行情太差了 老板知道行情差 给不了高预算
    mokevip
        34
    mokevip  
       160 天前
    两点劝退
    1. 5k/月兼职,不提工作量,如每周有多少活
    2. “可能今天给你发网址 第二天你就要采集好文章”,明明是兼职却对时效性要求高,兼职都是用工作空闲时间做的,本职工作是第一优先级,指不定哪天晚上就要加班,熬夜给你写脚本?

    推荐 OP 不如多对接几个爬虫工程师,有活了就推,人家有时间就做,按工作量来结算,谁也别给谁压力
    sxiaojian
        35
    sxiaojian  
       160 天前 via iPhone
    劳动力那么便宜了
    Shazoo
        36
    Shazoo  
       160 天前
    哦?使济南的啊?给个站点列表看看

    Telegramhttps://t.me/MailSlot
    locoz
        37
    locoz  
       160 天前
    @kingfalse #18 说难度前先看数据量,一个话题下的文章才多少的量...这么点量的情况下,没有对数据加密、没有做无限 debugger+反抓包之类操作的网站只配按 1 级难度算,傻瓜式爬虫工具都能解决。
    eDeeraiD0thei6Oh
        38
    eDeeraiD0thei6Oh  
       160 天前
    兼职还是可以了吧 5K 。毕竟大家都没有工作好久了。比如说我。
    locoz
        39
    locoz  
       160 天前
    @mokevip #34 真奇怪,工作量自己沟通不就行了,这有什么好说的...沟通完觉得自己接受不了就不做,接受得了就做,每个人的接受度不同。而且实际业务需求也不一定是稳定的量,甚至时效性要求都可以根据需求变化,这些都是要具体沟通的,怎么可能在个主题下一两句话讲清楚。

    而且为啥觉得一定就得是一个本职工作很忙的人接他这活?有的人就是自己线下开个店,线上接点单;又或者是有的人就不想出门上班,就在家完全靠接单和固定合同的远程办公赚钱;甚至可能有的人就是做外包服务中介的,接了他这活转手就丢给别人了,需求简单连沟通都不怎么需要沟通,几乎 0 成本赚个代沟通钱。世界之大无奇不有,你觉得有压力,别人可能觉得这钱跟白捡的一样,有什么不行的...
    locoz
        40
    locoz  
       160 天前
    @sxiaojian #35 这种低难度需求的劳动力一直都很便宜,连傻瓜式爬虫工具都能替代,很多这种需求的公司专门招个人本质上只是为了省事而已。
    locoz
        41
    locoz  
       160 天前
    @tuomasi #19 爬虫跟后端开发的技术栈几乎完全不同,让一个后端开发干爬虫的活的效率可能还不如一个不懂技术的人用傻瓜式爬虫工具点几下来得高...一些复杂点的情况,后端开发由于相关知识缺失,也想不到更优解,要么效率极低要么压根解决不了问题。

    而一个后端+爬虫开发水平都没问题,或者后端开发水平没问题且愿意花时间快速学习爬虫相关知识以满足需求的人,显然只加 5K 薪资是不太够的,不加薪资按纯后端开发招的就更别提了。而且加薪资只招一个人的话,还要考虑到工作量分配、其他同级别员工薪资水平的差异之类的问题,以及加薪资之后社保、公积金之类的其他人力成本问题,长远点还要考虑需求变化怎么处理的问题,全是麻烦事。

    在需求没那么复杂,不是作为一个高级技术人员招的情况下,显然还是分两个招更简单省事。而且由于需求不复杂,可以远程办公且按兼职算,不需要加上办公场地、办公设备、社保、公积金、其他员工福利等各方面的成本,不仅省事还省钱。
    iosqiao
        42
    iosqiao  
       160 天前
    啥叫分布式爬虫?
    Zorro825
        43
    Zorro825  
       160 天前
    @iosqiao 同问,啥叫分布式爬虫?
    SlYyWc
        44
    SlYyWc  
       160 天前
    现在这行情,爬虫可不便宜,不要太菜的爬虫现在找工作可太好找了
    a412501665
        45
    a412501665  
    OP
       160 天前
    @iosqiao 不清楚 技术给的关键词....
    wangmou
        46
    wangmou  
       160 天前
    @iosqiao 我猜就是手里有代理池那种,单 IP 爬大站一会就给你封了
    wangmou
        47
    wangmou  
       160 天前
    不说工作量多少,而且还有时效要求,不好找。
    shench
        48
    shench  
       160 天前
    火车头采集能接受的话联系我
    1992w
        49
    1992w  
       160 天前   ❤️ 1
    @Zorro825 采集的数据多了,单靠一个服务采集不过来的时候,一样需要对爬虫服务做模块拆分呀,可能需要 N 台机器同时去爬才能在规定的时间内完成指定数据量的采集,拆分后可能会有任务管理模块,采集模块,数据处理模块等,都是独立、集群化的部署
    bitlaoyuan
        50
    bitlaoyuan  
       160 天前
    @1992w 我感觉应该没有那么大的量,可能就是对爬虫业务不专业,接触不到靠谱的 IP 池,但是手上又颇有几台服务器,自有 IP 足够爬虫用的,所以提了个分布式。。
    erosripe
        51
    erosripe  
       159 天前 via Android
    分布式爬虫,嗯……如果不要求数据清洗,那么随便扒了,数据下来要是再加上数据清洗,那么这个钱工作量就大了,看着描述,我忙猜一手,熟练的找个长期兼职工作只会越干越多,后期必然要数据清洗数据可视化,或者不给钱直接先用一个月
    hades97
        52
    hades97  
       159 天前
    建议是按量付费,直接付月薪大家压力都很大
    colinlikepotatos
        53
    colinlikepotatos  
       159 天前
    包月不敢干 谁知道有什么破事 随便找个理由就可以扣钱。哈哈 按次 能做就做 不能还可以推一下
    hevi
        54
    hevi  
       159 天前
    啥都不知道,3 ,5k 招分布式。。
    xulolololololo
        55
    xulolololololo  
       159 天前
    我个人爬一个表,报价 2000 ,我都嫌低。你这
    luke2sweet
        56
    luke2sweet  
       159 天前
    留邮箱,还要发简历吗
    a412501665
        57
    a412501665  
    OP
       159 天前
    @hades97 都可以 商量着来呗
    sofarsofunny1
        58
    sofarsofunny1  
       159 天前
    a412501665
        59
    a412501665  
    OP
       159 天前
    @xulolololololo 那说明大佬渠道可以啊 我这边都是找淘宝 淘宝上的服务便宜
    a412501665
        60
    a412501665  
    OP
       159 天前
    @luke2sweet 我只负责招人 老哥 最后定夺还是老板
    x250881478
        61
    x250881478  
       158 天前
    我看很刑啊, 哈哈
    Maerd
        62
    Maerd  
       150 天前
    觉得小红书简单可能是量不大且用的自动化?小红书的协议爬取目前是 t1 级别麻烦+法律风险高的
    shinodajmk
        63
    shinodajmk  
       137 天前
    钱不多 但是够刑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2642 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:04 · PVG 23:04 · LAX 07:04 · JFK 10:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.