V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tangknox1
V2EX  ›  PHP

谁有空闲时间,付费找人写个小偷程序

  •  
  •   tangknox1 · 2022-06-21 14:01:58 +08:00 · 5950 次点击
    这是一个创建于 888 天前的主题,其中的信息可能已经有所发展或是发生改变。
    小预算,穷屌丝一个,嫌弃钱少的也别骂我。

    通过 https://www.qwant.com/?locale=zh_CN&q=%E7%BA%A2%E7%83%A7%E8%82%89%E6%80%8E%E4%B9%88%E5%81%9A%E5%A5%BD%E5%90%83&t=web

    抓数据回来,用新的规则清晰数据,然后用自己的模板风格加载生成缓存文件后输出。

    没啥负责的技术含量,估计整个程序就 2 到 3 个文件。

    github 上貌似有 qwant 的 API 接口,不过看了下 检索页面的右键源代码,也有 json 数据输出。

    我小白,也不懂啥技术,估计是 curl 取数据,正则啥的过滤和清洗,最后组合下数据生成缓存页面,前台输出。

    能做的给我发个邮件联系,邮件实时能收到并回复你。

    联系邮件:

    tangknox # gmail.com
    是 gmail 的邮箱
    发的时候把 # 号 和前后空格删掉,# 改成 @

    最后来个长期有空余时间接活的,都是一些小需求开发较多。
    第 1 条附言  ·  2022-06-22 10:34:51 +08:00
    已找到人接,谢谢各位帮助
    48 条回复    2022-06-24 11:53:35 +08:00
    xwayway
        1
    xwayway  
       2022-06-21 14:11:43 +08:00   ❤️ 13
    [估计没啥技术含量] 这个话说得我好怕……这是搜索引擎的数据,拿回来还要清洗后再吐出去,清洗规则估计要做成,我想怎么配置就怎么配置。然后还要自己的模板风格,有 ui 设计了吗?估计也是坑,等人跳。整个程序就 2-3 个文件,,,我也觉得百度谷歌挺简单的,就一个搜索框页面,一个搜索结果展示页面。 坐等有缘人入坑
    lshero
        2
    lshero  
       2022-06-21 14:15:34 +08:00
    突破搜索引擎的反爬虫就是技术含量啊
    本站对各种 SEO 优化的内容农场的态度还是比较负面的
    omL72EEc
        3
    omL72EEc  
       2022-06-21 14:18:14 +08:00   ❤️ 7
    ”我的想法挺简单的,做个淘宝京东之类的就行了“
    tangknox1
        4
    tangknox1  
    OP
       2022-06-21 14:20:16 +08:00
    @xwayway UI 风格不做都可以,就简单的 html 弄下输出数据,我自己改就行了。就一个小偷程序,我都说了没大预算,但是不等于说是几百块钱就打法了,我说成,您也不愿意对吧,所以最终价格还是要谈。至于需求,谈了你给个报价也行啊。有没有逼迫谁。哪里来的坑,如果谈好了需求和价格,完全可以去开源中国我先支付托管资金,或者先打钱给你定金也行啊。
    tangknox1
        5
    tangknox1  
    OP
       2022-06-21 14:21:14 +08:00
    @lshero 你先去 github 上搜下这个国外的搜索引擎吧,官网本身就有对外的 API 接口。免费。顶多加个在线代理功能罢了,
    lower
        6
    lower  
       2022-06-21 14:24:41 +08:00
    这网站是干啥的啊?我挂着台湾代理,还不让我访问……
    tangknox1
        7
    tangknox1  
    OP
       2022-06-21 14:26:40 +08:00
    @omL72EEc curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧。。再说了,我也没说是对技术人员或者人为 PHP 廉价,也没不尊重吧,我自己技术不行小白一个,但是也不至于一点不懂吧,何况生意都是需要谈的,你觉得没我说的那么复杂,那你给个报价,我觉得预算能满足你的报价那就找你做对吧。。没必要阴阳怪气说这些。谁跟钱有仇啊
    qwertyzzz
        8
    qwertyzzz  
       2022-06-21 14:27:42 +08:00
    不是还有分页吗
    tangknox1
        9
    tangknox1  
    OP
       2022-06-21 14:28:49 +08:00
    @qwertyzzz 不需要分页数据,只需要抓第一页那 10 条,还有右侧那个相关文章的就行了。
    janus77
        10
    janus77  
       2022-06-21 14:37:20 +08:00   ❤️ 1
    直接说你最终想做个什么产品出来,不要用不专业的术语强行解释流程。
    自己的风格是什么?需要设计吗?是否好看和成本挂钩
    新的规则是谁给?我给的话随便给你能接受吗?有标准吗?标准和钱挂钩
    输出是怎么输出?网页? app ?小程序?公众号? api ?还是直接给数据库文件?需要后台吗?需要开发者账号吗?这些都和钱挂钩
    dwlovelife
        11
    dwlovelife  
       2022-06-21 14:44:03 +08:00
    ·······你这个不是只抓那个红烧肉的搜索页吧 什么条件搜索页都得抓吧 咱姑且都抓第一页 就这一步 抓取数据的这一步就不是一件小工作
    lshero
        12
    lshero  
       2022-06-21 14:44:35 +08:00
    @tangknox1 大部分项目说的 API 都是 Unofficial API ,开放 API 和有风控并不冲突。加代理是不是得必须是原生 IP ,机房的 IP 行不行?采集前是否需要增加代理可用性检测和代理池更换代理的需求?这些做爬虫的前置条件不解决清除肯定没人愿意直接接单的。
    tangknox1
        13
    tangknox1  
    OP
       2022-06-21 14:49:52 +08:00
    @janus77 哥,不需要 UI ,最基础的 HTML 能输出数据就行,做好了我自己改风格样式就行了,就用 PHP 写个网页,txt 存储关键词,然后 curl 去这个搜索引擎网站抓检索结果第一页的数据回来,用正则规则清洗组合后前台输出就行了。不过你看下我贴里发的那个 URL ,邮件查看源代码,有 json 数据输出

    比如,www.v2ex.com/?s=关键词
    预算我可以适当放大,不过最终看你给的价格合适不合适
    tangknox1
        14
    tangknox1  
    OP
       2022-06-21 14:50:43 +08:00
    @lshero 还是你说的话中肯,我爱听。
    qwertyzzz
        15
    qwertyzzz  
       2022-06-21 14:54:42 +08:00
    @tangknox1 想试试 但是不知道代理咋弄
    lshero
        16
    lshero  
       2022-06-21 14:59:13 +08:00
    @qwertyzzz 原生代理有卖的价格比较贵基本都是按照流量收费的。

    楼主的需求其实就是写个定时任务挂着代理把
    https://api.qwant.com/v3/search/web?locale=zh_CN&q=需要搜索的内容&count=10&offset=0&device=desktop&safesearch=1

    扒拉下来,然后选取一下合适的 Json 内容,写入他的 CMS 数据库生成静态页,然后搜索引擎里又会多一些大家感觉莫名其妙的网站了。
    ppx199
        17
    ppx199  
       2022-06-21 14:59:44 +08:00
    自己先把需求理好吧,干多少活,拿多少钱。
    再简单的活,工作量大也得加钱,活多钱少,傻子才干。
    qwertyzzz
        18
    qwertyzzz  
       2022-06-21 15:09:57 +08:00
    @lshero 还有 api 这!
    Cbdy
        19
    Cbdy  
       2022-06-21 15:10:56 +08:00
    一股坑爹的气息
    oploverliu2012
        20
    oploverliu2012  
       2022-06-21 15:13:04 +08:00
    看着好像不难,就是需求太不明确了
    ttgo
        21
    ttgo  
       2022-06-21 15:21:18 +08:00
    v 站有个传统,就是不管什么需求,回帖都得说:这是阿波罗登月啊!
    报价一般从几百到几万几十万不等。
    tangknox1
        22
    tangknox1  
    OP
       2022-06-21 15:21:18 +08:00
    @lshero 差不多,就是 PHP 脚本里设置,请求抓取几次更换一个 IP ,避免抓取请求频率太高被封我服务器 IP ,不需要对接 CMS 数据库,1 个 post 请求 php ,写好规则,一个 接收数据显示脚本文件 php ,最好生成 php 缓存文件,前台输出调用缓存文件展示就可以避免多次抓取请求,缓存文件一次性,不需要更新缓存。
    jorneyr
        23
    jorneyr  
       2022-06-21 15:23:23 +08:00
    @omL72EEc
    ”我的想法挺简单的,做个淘宝京东之类的就行了“

    你这个要求有点难了,淘宝京东那么多页面,做个百度搜索就可以了,只有一个输入框和按钮。
    Tink
        24
    Tink  
       2022-06-21 15:27:47 +08:00
    大概多少预算
    keymao
        25
    keymao  
       2022-06-21 15:57:59 +08:00
    python scrapy 不过还是没弄明白你的需求。

    关键词是怎么设置 提前导入还是中间干涉,建议弄个需求文档理一理吧 需求大小先不说 云里雾里。
    westoy
        26
    westoy  
       2022-06-21 16:13:34 +08:00
    @tangknox1

    他说的其实是好话啊, 建议你拿 ab 对着目标网站跑一下看看会不会被封, 小偷这种上古玩意儿说白了就是 webproxy 啊, 你想想现在 webproxy 都不多见了, 小偷基本没人用是因为正经网站基本没有不限制访问频次的, 有些还会根据前端特征判断你是不是真人, 像用一些 CDN 或者 CF 顶在前面的这类都是自带功能, 所以后网站时代做垃圾站也是搞的代理池采集入库那套, 有的还会上无头浏览器模拟真人访问, 你找人写这个, 很容易就是低频测试的时候一切正常, 上线了或者隔两天就不能用了, 到时候纠纷就更大了
    ytll21
        27
    ytll21  
       2022-06-21 16:18:52 +08:00   ❤️ 1
    这是阿波罗登月啊!
    xwayway
        28
    xwayway  
       2022-06-21 16:27:43 +08:00
    @ttgo 因为,很多人都被这种单子坑过吧……哈哈
    shyrock
        29
    shyrock  
       2022-06-21 16:27:50 +08:00
    未经授权的爬虫是不是非法的?
    如果 OP 被抓了,是不是程序员也要被顺藤摸瓜?
    xingjue
        30
    xingjue  
       2022-06-21 16:28:49 +08:00
    大冤种
    lexin132
        31
    lexin132  
       2022-06-21 16:32:03 +08:00
    其实我觉得,你应该先说你的预算框定在什么范围,大家给你发邮件聊了半天需求,一通了解下来,预算几百块,那时间成本划不来
    或者你大致列个需求清单,大家看完心理有个价位,然后报给你,两个人都能接受,大家再继续详谈
    我看见好几个人上来就强调简单,容易,无非就是想看看能不能捡个便宜
    BeforeTooLate
        32
    BeforeTooLate  
       2022-06-21 16:52:11 +08:00
    | 我小白,也不懂啥技术。
    | 没啥负责的技术含量,估计整个程序就 2 到 3 个文件。
    1.说自己小白就行,然后直接提需求就行,别人自然会来匹配你的需求,你为啥非要来一句这个东西没啥技术含量?
    2.善意提醒小偷程序爬虫等可是违法的,跳坑的人自己把握
    em70
        33
    em70  
       2022-06-21 16:53:19 +08:00
    @janus77 #10 他才不会告诉你呢,怕你抄他创意
    Saurichthys
        34
    Saurichthys  
       2022-06-21 16:56:54 +08:00
    没有技术含量,自己写不就完事了
    nine
        35
    nine  
       2022-06-21 17:02:10 +08:00
    一万块钱我接了
    learningman
        36
    learningman  
       2022-06-21 17:08:32 +08:00 via Android
    @ttgo 因为任何不说清楚的任务,需求都可以加到阿波罗登月
    king888
        37
    king888  
       2022-06-21 17:13:03 +08:00   ❤️ 3
    没有技术含量,自己写不就完事了 +1
    king888
        38
    king888  
       2022-06-21 17:17:19 +08:00
    一般与这种想法的客户合作,不会存在长久合作关系的,说不定收尾结果都不会很好。因为想法完全不对等,一边觉得没技术含量,一边觉得我这就技术活。突然觉得写代码好卑微...
    dilu
        39
    dilu  
       2022-06-21 17:38:39 +08:00
    说实话,没有反讽的意思。

    PHP 很简单,你这个抓数据也不复杂,几个正则调一下就行了。

    所以你完全可以自己写的,没必要找人做。

    甚至很多浏览器都有抓数据的插件,很方便的。
    westoy
        40
    westoy  
       2022-06-21 17:40:07 +08:00
    @king888

    有一说一, 还是码农圈比较卷的问题, 正经制造业哪有做小单定制业务的...........
    spicecch
        41
    spicecch  
       2022-06-21 17:42:00 +08:00
    做什么才有技术含量呢
    ezreal
        42
    ezreal  
       2022-06-21 17:46:05 +08:00
    确实简单,就是不敢写爬虫
    timeromantic
        43
    timeromantic  
       2022-06-21 18:49:55 +08:00
    细品 OP 的发言:

    1 ,“我小白,也不懂啥技术,估计是 curl 取数据,正则啥的过滤和清洗,最后组合下数据生成缓存页面,前台输出”

    2 ,“curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧”

    既然是小白,又说没啥技术含量?这不前后矛盾吗?

    没有技术含量,自己写不就完事了 +1
    tangknox1
        44
    tangknox1  
    OP
       2022-06-21 19:52:23 +08:00
    @westoy 确实是这样,因为我小白,所以误解了他,感谢你的解释。
    tangknox1
        45
    tangknox1  
    OP
       2022-06-21 19:54:55 +08:00
    @BeforeTooLate 谢谢,我知道自己的帖子有很多语病,不过这个站是国外的搜索引擎,应该没事儿。
    tangknox1
        46
    tangknox1  
    OP
       2022-06-21 20:00:47 +08:00
    @timeromantic 我真不是做后端的,PHP 就知道个 echo ,我是很早以前花了不到 2000 块钱找人写过一个搜狗图片小偷,就 1 个 php 脚本文件,那个 PHP 技术一上午就弄好发我了。而且我这两天也自己找教程试着做了下,但是卡在生成缓存然后前台怎么调用 php 缓存文件展示,我不会弄这个了,所以也算是知道一点点,这不想着应该不难吧。但是得找专业 PHP 人员搞不是吗。
    MrWhite
        47
    MrWhite  
       2022-06-22 20:19:13 +08:00
    @king888 对头。而且提醒跳坑的人一定要先要一部分押金然后需求谈清楚。以前就遇到这种的 也动不动就说没多少,又不难,不就是一个按钮吗? 最后又加功能,然后还扯皮说本来就是包含在内的。。
    a570295535
        48
    a570295535  
       2022-06-24 11:53:35 +08:00 via Android
    淘宝 50 块起步,最多 200 块就能做好。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1382 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:35 · PVG 01:35 · LAX 09:35 · JFK 12:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.