V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sengxian
V2EX  ›  程序员

求指路淘宝爬虫姿势

  •  
  •   sengxian · 2021-10-21 21:20:15 +08:00 · 7715 次点击
    这是一个创建于 1130 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有个需求,需要爬某品类下不同商家的大量商品详情及图片,总量约十万级别,预算比较充足,请问现在有靠谱的方法吗,是不是会面临比较大的政策风险 = =

    求指路,感激不尽
    68 条回复    2021-10-26 18:04:30 +08:00
    lsylsy2
        1
    lsylsy2  
       2021-10-21 21:21:57 +08:00   ❤️ 22
    你的预算和法务都很难比阿里更充足
    x86
        2
    x86  
       2021-10-21 21:29:09 +08:00   ❤️ 4
    阿里法务部希望你在年前可以做出来,这样好冲下 KPI
    Xusually
        3
    Xusually  
       2021-10-21 21:41:53 +08:00 via iPhone   ❤️ 1
    Prison Oriented Programming
    ByZHkc3
        4
    ByZHkc3  
       2021-10-21 21:48:43 +08:00
    这是留下犯罪证据吗
    kiracyan
        5
    kiracyan  
       2021-10-21 21:56:48 +08:00
    吃牢饭的姿势?
    defunct9
        6
    defunct9  
       2021-10-21 21:57:21 +08:00
    慢速 + 疯狂换代理,应该可以
    Kiriya
        7
    Kiriya  
       2021-10-21 21:58:16 +08:00
    爬虫写的好,牢饭吃到饱狗🐶
    xiadd
        8
    xiadd  
       2021-10-21 22:04:21 +08:00
    雇人人工保存🐶
    ixuuux
        9
    ixuuux  
       2021-10-21 23:25:31 +08:00 via iPhone
    方法是有的,但是你要合规那没有
    mxT52CRuqR6o5
        10
    mxT52CRuqR6o5  
       2021-10-21 23:28:51 +08:00 via Android
    @xiadd 雇人工手爬是最法律安全的,不过还是可能被反爬虫
    eason1874
        11
    eason1874  
       2021-10-21 23:39:41 +08:00
    《面向法律编程》

    @xiadd @mxT52CRuqR6o5 人工仅仅是访问合规,还有用途合规,这才是重点。要是用来盈利的,不管怎么收集都不会是合规的
    johnsonshu
        12
    johnsonshu  
       2021-10-21 23:40:15 +08:00
    借楼问一下,爬某个网站合不合法,是不是看 robots.txt 就行啊?
    有没有什么判断标准啊?
    Jooooooooo
        13
    Jooooooooo  
       2021-10-21 23:44:10 +08:00
    预算充足就人工搞呗.

    十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.
    eason1874
        14
    eason1874  
       2021-10-22 00:09:04 +08:00   ❤️ 18
    @johnsonshu #12 法律很灵活,主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

    1 、今日头条发家的时候肆无忌惮地采集,根据不管 robots.txt ,一律抓取放到自己网站,被百度、腾讯、微博等很多大网站和报纸起诉,一些和解转为合作,一些赔点钱。
    2 、后来反过来,有个小公司采集今日头条的视频,几个主要人员被判刑和罚款,全国首例“爬虫”技术侵入计算机系统案。
    3 、今日头条被微博 robots.txt 拉黑,他们还反过来起诉微博不正当竞争,2017 一审胜诉,2021 二审才改判败诉。
    caicaiwoshishui
        15
    caicaiwoshishui  
       2021-10-22 09:21:19 +08:00 via iPhone
    @eason1874 血压上来了
    lilihangzhou
        16
    lilihangzhou  
       2021-10-22 09:31:52 +08:00
    劝退,曾经爬过一小阵子淘宝有好货的文案,那个时候做爬虫还没什么法律风险,但是淘宝的反爬很厉害,爬了几万数据就被堵上了,
    oneisall8955
        17
    oneisall8955  
       2021-10-22 09:53:09 +08:00 via Android
    对接第三方吧?
    supuwoerc
        18
    supuwoerc  
       2021-10-22 10:00:41 +08:00
    预算够的话直接上人工,手动保存,这样就没政策风险了🐶
    lzs5240
        19
    lzs5240  
       2021-10-22 10:05:58 +08:00
    阿里法务部已记录在案 希望你赶紧行动
    shanghai1943
        20
    shanghai1943  
       2021-10-22 10:30:52 +08:00   ❤️ 1
    莫非这帖子是阿里法务的钓鱼贴?
    keventseng
        21
    keventseng  
       2021-10-22 10:48:32 +08:00
    做之前,先把“张三”请来当你的法律团队~
    feelinglucky
        22
    feelinglucky  
       2021-10-22 10:57:28 +08:00
    这可真刑,真有判头
    SmiteChow
        23
    SmiteChow  
       2021-10-22 11:21:39 +08:00
    爬虫写得好,牢饭吃得早。
    tenserG
        24
    tenserG  
       2021-10-22 11:24:39 +08:00
    李四教会张三爬虫,张三爬取某大型网站非法获利被警方抓获,请问李四要承担什么责任⬅.⬅
    chevalier
        25
    chevalier  
       2021-10-22 11:29:41 +08:00
    @tenserG 李四如果有指使张三爬某大型网站的行为,则是主犯,教唆犯
    如果没有类似行为,则不需要承担责任
    lithiumii
        26
    lithiumii  
       2021-10-22 11:31:56 +08:00 via Android
    预算充足找第三方,直接百度搜,那几家都做广告的,对比一下。
    ospider
        27
    ospider  
       2021-10-22 11:42:29 +08:00   ❤️ 6
    V 站里竟然也有整楼都是玩儿梗的帖子,服了。

    楼主这种情况可以说几乎没有法律风险。10 万数量不大,而且商品信息本来就是公开可访问的,不是用户隐私信息。

    从某种程度上来说,像淘宝这种垄断平台,应该有把自己信息开放的义务,否则淘宝才是不正当竞争。楼上你们这些人冷嘲热讽,真不知道是什么心态,嫌国内的技术氛围太好吗?
    thetbw
        28
    thetbw  
       2021-10-22 11:54:04 +08:00
    像喵喵折那种,我看它数据还是蛮全的,不知道是怎么实现的。他们有个浏览器插件,难道是用户当肉鸡,去爬分析用户当前浏览的数据,返回给他们服务器?
    lazyyz
        29
    lazyyz  
       2021-10-22 12:32:47 +08:00 via Android
    非常具有可邢性
    huyu
        30
    huyu  
       2021-10-22 14:09:45 +08:00
    我以前写过,10 万数据不是很难,就是需要时间
    LING97
        31
    LING97  
       2021-10-22 14:19:23 +08:00
    学 Python 的时候爬过京东,几乎没啥反爬机制。淘宝就是爬不成功,各种被检测,然后就放弃了,也不是吃这口饭的
    gengchun
        32
    gengchun  
       2021-10-22 14:37:25 +08:00   ❤️ 1
    @ospider 你这说法有误导,这个最多只是没有刑事风险。

    民事风险当然是有的。

    > 应该有把自己信息开放的义务,否则淘宝才是不正当竞争

    这个理由确实不错,真的合规的话,你应该进行预防性诉讼,先去起诉淘宝不正当竞争,赢了以后再爬。 除非你这么说没有任何意义。

    你唯一说对的是,这个数量不大,阿里的法务应该懒得搭理,所以法律风险可以忽略不计。
    doecho
        33
    doecho  
       2021-10-22 14:40:45 +08:00
    爬虫是不能爬虫的,现在的淘宝限制得很死,单刚怎么干得过阿里的反爬团队
    huanglongtiankon
        34
    huanglongtiankon  
       2021-10-22 14:51:32 +08:00
    只是爬 10 万难度应该不大,多换几个代理就是了
    huanglongtiankon
        35
    huanglongtiankon  
       2021-10-22 14:56:13 +08:00
    而且这么点数量根本没什么法律风险的,阿里法务才没这么闲去管你
    whusnoopy
        36
    whusnoopy  
       2021-10-22 15:05:43 +08:00
    @ospider 提一些反对意见,非杠

    如果是未登录状态,不用几条就会遇上各种反爬的反制手段,不太确定技术上是否好解决
    如果是登录状态,超出正常使用频度的访问应该也会被反爬,甚至暂时冻结账号,不知道有没准备足够的账号

    信息的确应该开放互通,爬是一种办法,而且应该是迫不得已的办法,技术圈真正该做的是推动开放互通,有可以公开的获取渠道
    aozhou
        37
    aozhou  
       2021-10-22 15:23:47 +08:00   ❤️ 1
    @ospider 终于有个说实在话的,不过国内这个环境确实太差了,太偏向大资本了。
    ColinLi
        38
    ColinLi  
       2021-10-22 15:57:07 +08:00
    能爬,但是刑不刑就看运气了
    XD2333
        39
    XD2333  
       2021-10-22 16:00:47 +08:00
    预算充足的话不如去走接口吧,淘宝的爬虫的话,反爬太疯狂了,还有风险。
    jabari
        40
    jabari  
       2021-10-22 16:07:38 +08:00
    @ospider #27 赞同, 但是《非法侵入计算机信息系统罪》 了解一下
    具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:   
    (一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;   
    (二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;   
    (三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。
    ncepuzs
        41
    ncepuzs  
       2021-10-22 16:44:49 +08:00
    阿里系的反爬都比较丧心病狂
    控制频率 + 代理池或许可以
    但既然预算充足,不如外包
    jeeyong
        42
    jeeyong  
       2021-10-22 16:51:23 +08:00   ❤️ 2
    首先...你要学习如何编译 chromedriver. 然后要去掉哪些特征. $_cdc 这种基本无所谓了现在.
    其次, 你要学会如何用 js 去伪造和去掉很多特征, 有些原生函数还要重写.
    举个例子, 当你用 https 协议(ios 必须是此协议, http 不行.)获取设备的地理位置信息时, 可以尝试观察他的变化特征.
    而你用爬虫的时候, 是否注意到这个问题. 这个例子仅限于移动设备模式, pc 端貌似不用考虑.
    然后才考虑到代理, 行为模式这类问题.
    我说的很含糊..因为这个技术弄明白了很香啊....
    网上也基本不会有关于第一, 第二条的相关知识. 都闷着自己做事呢.
    ws52001
        43
    ws52001  
       2021-10-22 16:53:02 +08:00
    换代理也是没啥用的,现在淘宝是要有 ID 登录才能访问商详,10W 这个数量级虽然很小,但你想顺利爬出来还是很费劲的。。另外阿里的类张三人物还是挺多的,跟你耗个几年估计都没啥问题。
    daimaosix
        44
    daimaosix  
       2021-10-22 16:56:00 +08:00
    刑,日子总算有判头了
    nu11ptr
        45
    nu11ptr  
       2021-10-22 16:59:13 +08:00
    桌面 web 端正常使用都狂跳反爬,体验吊差
    Felldeadbird
        46
    Felldeadbird  
       2021-10-22 17:13:19 +08:00
    用浏览器扩展写爬虫。

    但是,但是,但是。你正常人只浏览不购买。风控系统会锁定你的。

    所以你要解决的就是怎样伪装成人。
    gamexg
        47
    gamexg  
       2021-10-22 17:18:53 +08:00
    @ospider #27 风险还是有的,
    淘宝授权里面应该不允许机器人抓取,
    然后突破淘宝反爬虫系统会涉及到入侵计算机系统罪。
    aababc
        48
    aababc  
       2021-10-22 17:24:06 +08:00
    大家不知道还记不记得有一个叫 巧达 的公司
    jiayong2793
        49
    jiayong2793  
       2021-10-22 17:49:35 +08:00
    写爬虫已经进去几个了,你还敢?
    find456789
        50
    find456789  
       2021-10-22 17:57:56 +08:00
    10w 的数据不算大,我几年前爬过卖家信息,那时候 谷歌云服务可以免费领取,我开了大概 10 个机器, 爬了大概可能有 100w (具体记不清,也可能是几十万)

    你如果只要详情(文字信息)+ 图片地址, 走默认渠道可能会有难度,因为他们的反爬比较变态, 建议你找一下他们的 api 接口, 速度会快很多

    另外, 淘宝有个开放平台, open.taobao.com 申请一个 app,然后申请权限后,就可以拿到很多商品信息

    如果最后,你还搞不定, 可以把你的需求和我详细说说(考虑到你说预算充足)
    feiniu
        51
    feiniu  
       2021-10-22 18:17:13 +08:00
    需要买 代理+ 账号

    现在淘宝没账号,寸步难行
    feiniu
        52
    feiniu  
       2021-10-22 18:17:40 +08:00
    商品详情 现在风控很高
    feiniu
        53
    feiniu  
       2021-10-22 18:27:11 +08:00
    @jeeyong 真大佬
    xiaoluhi
        54
    xiaoluhi  
       2021-10-22 18:41:09 +08:00   ❤️ 1
    @ospider 胖球数据据说就是阿里举报的,前段时间被端了的,爬的也是商品、价格、销量信息等等。
    https://www.ixigua.com/7021106873096995358?wid_try=1
    txx
        55
    txx  
       2021-10-22 19:11:00 +08:00   ❤️ 1
    商品详情有淘客的 API 啊...直接买 API 就行了...
    jeeyong
        56
    jeeyong  
       2021-10-22 19:20:37 +08:00
    @gamexg 破坏计算机信息系统罪 及 非法入侵计算机信息系统罪.
    bybyte
        57
    bybyte  
       2021-10-22 19:39:17 +08:00
    日子越来越有判头了
    jeeyong
        58
    jeeyong  
       2021-10-22 19:53:20 +08:00
    我有社交牛逼症, 我再来多 BB 几句..
    首先, 我没有任何业务是爬取淘宝的. 但是从技术角度做过验证, 发现可行. 仅此而已.
    本文并未透露关于爬取淘宝的任何技术细节和技术方案, 旨在讨论人机识别技术.

    淘宝在人机识别方面会更深入的做技术甄别, 通过发现更多的技术特征, 从而直接进行访问阻断或验证.
    比如早期的时候, 他是我接触的相对较早去获取$_cdc 变量判断是否为爬虫的.
    后来发展成为通过获取更多的特征, 来判断. 这应该是属于 v8 解析 js 的时候的引擎的特性吧? 我不太懂 js, 仅限于普通的应用层面. 我贴一部分代码, 看看做爬虫的时候, 你关注了多少.

    var platform = 'iPhone'
    var webdriver = false
    var standalone = false
    var maxTouchPoints = 5
    var cookieEnabled = true
    var productSub = 20030107
    var product = "Gecko"
    var vendor = "{vendor}"
    var vendorSub = ""
    var onLine = true
    var hardwareConcurrency = undefined
    var oscpu = undefined
    var cpuClass = undefined
    var doNotTrack = undefined
    var getBattery = undefined
    var storage = undefined
    var systemLanguage = undefined
    var permissions = ["geolocation", "notifications"]
    var bluetooth = undefined
    var standalone = undefined
    var userAgent = "{userAgent}"
    var shanghai = {{"longitude": 0, "latitude": 0}}
    var zhongshan = {{"longitude": 0, "latitude": 0}}
    var hangzhou = {{"longitude": 0, "latitude": 0}}

    这些变量大部分是系统内置的变量, 在你加载页面的时候他就有了...
    但是改变他的时候不能直接赋值, 这个 JS 大佬应该更清楚, 我只是知道...
    需要通过 Object.defineProperty 方法去改变...

    小朋友太闹了...我得哄娃去了..哈哈哈
    jeeyong
        59
    jeeyong  
       2021-10-22 19:57:16 +08:00   ❤️ 1
    @jeeyong 小朋友吃饭去了..
    除此之外, 还可以通过 crx 插件及 js 的方式去替换掉显卡的特征..
    但这些做法相对比较局限, 大规模爬取的时候还是很容易被识别出来...
    相对来说, 淘宝有个好处是, 他发现你是人机, 他会要求你验证..
    但是像百度, 他只是在后台默默的标记上本次访问无效...这个很难受的.
    还有字节, 他是直接不给你内容, 抑或是使用蜜罐类的技术防止你爬取.
    有些网站甚至发现你是爬虫后, 直接给你假的, 没有意义的内容...
    我想转行...有大佬收留吗?哈哈哈
    相比技术, 我也挺擅长销售和管理的...
    markgor
        60
    markgor  
       2021-10-23 16:03:26 +08:00
    @jeeyong 你是在说某程吗,之前研究过携某的反爬,发现他们会通过浏览器特性来判断爬虫,
    一但判定为爬虫,会直接返回相对高的价格,甚至后来直接不管是不是爬虫,列表价直接返回浮动价,只有预定价才会返回真实价,前端就弹出恭喜你,价格降低 xxx 之类的。
    dreamage
        61
    dreamage  
       2021-10-24 19:21:25 +08:00
    找亚一爬
    safilar
        62
    safilar  
       2021-10-25 00:28:47 +08:00
    @jeeyong 给个联系方式,我这边缺销售
    jeeyong
        63
    jeeyong  
       2021-10-25 16:47:40 +08:00
    @safilar vx: 646894
    tel: 18621163721

    老板你好
    hvboekml
        64
    hvboekml  
       2021-10-25 17:04:12 +08:00
    @xiadd
    @Jooooooooo
    @supuwoerc 再进阶一点,手机自动化如何 https://hamibot.com/ ,然后众包运行,正如 @eason1874 所说,用途是重点
    aino
        65
    aino  
       2021-10-25 19:36:50 +08:00
    页面自动化的方式爬,也太 low 了把😹
    czfy
        66
    czfy  
       2021-10-25 20:05:33 +08:00
    别自己爬了,直接找供应商吧
    docx
        67
    docx  
       2021-10-25 20:31:57 +08:00 via Android
    阿里的反爬严格得要死,我正常访问淘宝、闲鱼这些都必跳滑块验证,很烦
    lusi1990
        68
    lusi1990  
       2021-10-26 18:04:30 +08:00
    反爬手段:账号,IP ,浏览器指纹(2d,3d,声音)

    你需要:养号,买代理,自己编译或者买魔改的 chrome
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   914 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 22:07 · PVG 06:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.