V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
billytv
V2EX  ›  奇思妙想

大数据时代保护隐私的另一方向:往大数据里投毒

  •  1
     
  •   billytv · 2021-01-29 11:13:15 +08:00 · 7813 次点击
    这是一个创建于 1392 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家都说在大数据下隐私都暴露无遗,各种 app 的广告精准投递,与其小心地防着,也许能换个方式向大数据里投毒?如爬虫一样,防守一方往数据里投假数据,混淆虚实,爬虫一方不小心就把假数据当成真,得到无效数据。

    简单实现方式:
    在已登录淘宝 /京东账号,搜索与自己兴趣毫无关联的产品,如玉石、茶叶等, 模拟长时间浏览 /加购物车 /咨询小二等操作。

    经过一轮操作,推荐页面已变得与个人兴趣不太相关,简单实现投毒。

    进一步投毒:
    所有厂商用于识别个人画像的东西,如手机型号,使用时间(半夜打开)、IP 与地理 (使用代理)、输入法、音频 (如真有偷听) 都可以进行投毒, 另一方面可以多人公用账号来混淆对个人精准识别 (但可能会有安全风险, 而且据说不少 app 能根据用户手指滑动习惯精准识别用户)

    自动化:
    利用 xposed/圈 x 等工具自动化操作,定时往 APP/sdk/各大广告联盟输送无效数据

    如果这个方式有效且落实得好,即使账号已经实名制,但各大厂拿到的个人画像已经变成模糊不清,营销变得毫无意义
    51 条回复    2021-02-04 11:10:42 +08:00
    kaiki
        1
    kaiki  
       2021-01-29 11:17:50 +08:00   ❤️ 1
    用魔法打败魔法还是挺难的,毕竟道高一尺魔高一丈。
    我在淘宝上搜索一个我之前从来没搜过的商品,直接让我滑验证码。
    如果大数据足够强大,通过对用户进行画像,剔除无关数据,那灌垃圾行为就可以被发现,退一步来说,现在已经画得差不多了,灌垃圾也不过是多加几笔罢了,影响不了大数据对你的真实信息的判断,除非你的在所有平台的数据无关联或无规律可循。
    arcadia
        2
    arcadia  
       2021-01-29 11:22:49 +08:00
    这个如果能实现,可能要系统化的帮你做一个假身份,模拟人每天都在产生大量的假行为。但是真做出来了,你使用各种 APP 的体验也都会差很多
    czfy
        3
    czfy  
       2021-01-29 11:24:14 +08:00
    主要是,太麻烦了..或者说门槛相对高,无法普及,无法大规模反制
    当然关心隐私的个人这么做是可以的,多一个人是一个人
    kaiki
        4
    kaiki  
       2021-01-29 11:27:16 +08:00   ❤️ 1
    @arcadia 其实没那么复杂,假身份太假更容易被拆穿,最主要的还是不同的 APP 身份隔离,让背后的数据收集无法归类为一个身份。
    billytv
        5
    billytv  
    OP
       2021-01-29 11:28:59 +08:00
    @kaiki 用户画像会随着时间而改变, 比如一个单身的人恋爱了, 他需要的东西跟之前完全不一样, 兴趣 /爱好这些也会慢慢产生变化, 至于判断垃圾数据的机制, 就跟爬虫与反爬一样, 是技术的较量, 没有说哪一方一定会赢, 试了才会知道
    kaiki
        6
    kaiki  
       2021-01-29 11:32:27 +08:00
    @billytv 变化一般是循序渐进的,就像我遇到的例子,突然搜索从来没搜过的东西他会让我验证,很明显就是发现了异常,同理灌垃圾这种行为也是会被检测到的,它可以先画,但是是否标记为有效数据,得再继续深入了。
    你这个想法在 V 站不是第一次出现,我认为单纯的无效数据很容易过滤,如果能创建有依据、连续的数据,更容易产生干扰效果。
    jiezhi
        7
    jiezhi  
       2021-01-29 11:34:14 +08:00
    以前也想过试图扰乱对手,只要我跑得步伐够乱,敌人就看不清我的方向。

    但最后应该是数据挖掘技术更强了。
    xiangyuecn
        8
    xiangyuecn  
       2021-01-29 11:36:42 +08:00
    深挖洞 广积粮 扔掉手机 剪断网线
    imn1
        9
    imn1  
       2021-01-29 11:42:29 +08:00   ❤️ 4
    前几天好像已经有一帖讨论过了

    很难,难点在于难以坚持
    信息鲜活度是个很重要的参数,技术上就是权重,近期的信息权重肯定更大,除非一直保持信息投毒这种操作,否则过一段时间,这个有毒信息鲜活度降低(权重减少),那么你的日常操作又重新占了主要的权重,没用

    #1 说的是另一方面,现在很多“追踪隐私”的操作,已经和账户联系相当紧密了,变成了风控的一个部分,如果进行大量自我数据污染,搞不好就是封号
    你可以试试切换多个 IP 访问 v2ex,先说一句,出问题我不担责,🐶

    我现在用的是行为隔离的方案,但向别人推荐时,99.9%都嫌麻烦
    所以,“大部分人愿意用隐私换便利”,将成为今后几十年的一个恒久金句
    liulaomo
        10
    liulaomo  
       2021-01-29 11:54:21 +08:00
    可以利用浏览器插件来实现
    DAMNYOU
        11
    DAMNYOU  
       2021-01-29 11:56:34 +08:00
    真简单的方法就是用假身份证,反正画像再真实 你用的都是壳,随时可以抛弃。
    jasonyang9
        12
    jasonyang9  
       2021-01-29 11:59:27 +08:00
    必须有自动化工具,居家旅行必备。让它 Y 的去分析
    love
        13
    love  
       2021-01-29 12:09:39 +08:00 via Android   ❤️ 1
    典型的损人不利己,费了半天劲一顿操作对自己啥好处也得不到
    dswyzx
        14
    dswyzx  
       2021-01-29 12:11:41 +08:00 via iPhone
    画像不一定就必须每人一个画像,太过离谱的,比如年入千把天天浏览奢侈品的直接当垃圾数据过滤,然后取多数人的相似结果给你推怎么办
    Varobjs
        15
    Varobjs  
       2021-01-29 12:57:26 +08:00   ❤️ 2
    最简单就是不要实名,但你觉得现在不实名可能吗
    wangkun025
        16
    wangkun025  
       2021-01-29 13:01:42 +08:00
    支持你。
    hahastudio
        17
    hahastudio  
       2021-01-29 13:09:04 +08:00   ❤️ 1
    wolfie
        18
    wolfie  
       2021-01-29 13:16:00 +08:00
    本地数据文件、好友关系 算是大多数人更关注的隐私数据。
    广告还是那么些个广告,个人反而更希望推的质量高一些。
    remarrexxar
        19
    remarrexxar  
       2021-01-29 13:44:58 +08:00
    《掟上今日子的备忘录》里的一个故事,一个内向自闭的女中学生喜欢阅读却不想暴露自己的爱好,所以在旧书店买书的时候会故意混杂大量无关的书一起买。但是对于专业的书店店长来说时间一长依旧能分析出她喜欢什么书,店员后来依旧准确的推荐出了女孩喜欢类型的书。对于大数据分析也是一样的道理。
    recall704
        20
    recall704  
       2021-01-29 13:47:18 +08:00
    之前就干过,QQ 空间照片经常有提问

    “这是 xxx 吗?”

    我都点不是,
    HatMatrix
        21
    HatMatrix  
       2021-01-29 13:57:40 +08:00
    何必呢,反正数据都会被收集,为啥要给自己找麻烦且让自己的推荐列表看着恶心。
    winnerczwx
        22
    winnerczwx  
       2021-01-29 13:58:12 +08:00
    用如此繁琐的操作, 对抗的是各家大厂背后的精英团队(手动狗头
    AA5DE3F034ACCB9E
        23
    AA5DE3F034ACCB9E  
       2021-01-29 14:15:02 +08:00
    哈哈,很赞同
    littiefish
        24
    littiefish  
       2021-01-29 14:44:26 +08:00 via iPhone
    其实最简单的就是多人共用一个账号
    ReinerShir
        25
    ReinerShir  
       2021-01-29 14:49:10 +08:00
    @Varobjs 理论上可以公安部提供统一实名接口,企业只能拿到类似微信一样的 openid,这样用户实名信息就不会泄露,但是实际上却很难实现。
    ruixue
        26
    ruixue  
       2021-01-29 14:52:18 +08:00   ❤️ 1
    如果不需要实名,根本用不着这么麻烦,佛系一些,随它怎么精准画像,过个三年五年换个设备换个号码换个账号从头再来即可,那些画像画的是过去的我,弃用账号后又影响不了现在的我未来的我。。

    比方说我现在用 Firefox 的账号就是如此,随它怎么收集浏览活动,定期换个邮箱新注册账号就行了

    只可惜现在国内服务动辄要求绑定身份证,用户隐私画像和个人身份便实现了永久强关联,就算换设备换号码,注销账号再注册新的也白搭,身份证号一输以前的黑历史通通重新关联回来,永远无法摆脱。。毕竟身份证是最强的精准定位自然人的手段,就算搬家改名整容,身份证号仍会伴随一生~

    之前美团收购了摩拜,新注册美团会直接调用摩拜的身份证数据,要求用户验证号码的实名信息。。所以不要觉得各个账号之间身份隔离就万事大吉了,今后各家数据互通的情况可能会越来越多,也越来越容易,反正拿身份证号做主键,各家都一样,都不需要转换的~
    murmur
        27
    murmur  
       2021-01-29 14:56:55 +08:00
    投毒是很危险的,你操纵价格这些数据最多劝退一些客户,新闻类网站如果是敢返回违法内容直接自己没了,用户可能看不见代码扫描会看到啊,人家可不管你是能看见还是看不见的
    KennyMcCormick
        28
    KennyMcCormick  
       2021-01-29 15:24:20 +08:00
    此时此刻正在淘宝和京东搜客户的产品,这也算投毒吧?
    mxT52CRuqR6o5
        29
    mxT52CRuqR6o5  
       2021-01-29 15:27:04 +08:00
    没啥用,你付没付钱淘宝京东还不知道吗
    sillydaddy
        30
    sillydaddy  
       2021-01-29 16:23:28 +08:00
    @ruixue #26, >“如果不需要实名,根本用不着这么麻烦,佛系一些,随它怎么精准画像,过个三年五年换个设备换个号码换个账号从头再来即可,那些画像画的是过去的我,弃用账号后又影响不了现在的我未来的我”

    即使不实名,画像的话,也是能识别出不同的账号对应同一个人的。

    “用户的浏览历史是独一无二的,可作为指纹使用”,https://www.solidot.org/story?sid=65389
    “测一下你的浏览器有唯一的指纹吗”,https://amiunique.org/fp

    另外还有“ip 地址”,“浏览器 cookie”,“移动设备信息”,“移动设备内的文件”,“行文风格分析”。。。

    想要唯一对应一个人,太容易了。中本聪就是活生生的例子啊。
    ruixue
        31
    ruixue  
       2021-01-29 17:02:25 +08:00
    @sillydaddy 嗯,是这样的,现在用来画像的技术手段层出不穷,防不胜防。不过之前说过,如果换了设备换了号码,浏览历史、浏览器指纹、浏览器 cookie 、移动设备信息、移动设备内的文件也相当于推倒重来了,这方面倒是不必太担心。现在基本都是动态 ip,想只通过 ip 地址对应唯一的人也不容易。至于行文风格分析,以及类似的行为习惯分析,这个确实难解,不过这种分析都有一定的误判率,根据贝叶斯定理,除非把误判率降低到一个相当小的程度,否则想只凭这个就确保精准是不可能的~

    说来说去归根到底还是成本的问题,实名绑定身份证号了,平台根本不用付出什么成本就能轻易地关联和该身份 ID 绑定的所有隐私画像,用户想一定程度避免,就需要挖空心思搞各种奇技淫巧;而不实名的话,只要用户稍微做一些技术处理,平台想确定唯一的身份需要付出的成本会大幅提高。资本都是逐利的,如果为了精准画像付出的成本还不够精准画像带来的收益的话,对于普通人来说也没必要过分担心了,省下精力做自己喜欢的事不也挺好~
    felixcode
        32
    felixcode  
       2021-01-29 17:06:21 +08:00
    买东西前先花三个小时给各网站投一下毒?
    Leonard
        33
    Leonard  
       2021-01-29 17:07:23 +08:00
    这么干也太累了吧
    ScepterZ
        34
    ScepterZ  
       2021-01-29 17:08:34 +08:00
    感觉至少淘宝推送的东西还挺好的,我可能就是李彦宏说的那种愿意隐私换便利吧
    liujialongstar
        35
    liujialongstar  
       2021-01-29 17:11:11 +08:00
    投毒不会让 app 不推送信息, 只会让 app 推送些莫名奇妙的东西, 最终恶心的还是自己
    helionzzz
        36
    helionzzz  
       2021-01-29 17:13:05 +08:00
    你要是一个朋友亲戚都没有平时不跟任何人联系 这事还有那么点实现的可能。你的信息一大半都是你的社交圈泄露的,请问你怎么防
    taobibi
        37
    taobibi  
       2021-01-29 23:14:28 +08:00
    扰乱的难度一方面在于你身边的人,你把信息保存的好好的,然后你的亲戚朋友同事老板把你的姓名电话都分享给了 app 。
    难点 2 是把你微信支付宝一封,直接 gg,然后呢,想要解封,身份证,银行卡,人脸全交出去了。目前封号微信的杀伤力远大于征信黑名单。
    gmm
        38
    gmm  
       2021-01-29 23:39:17 +08:00
    减少使用有这类软件吧。
    medivhs
        39
    medivhs  
       2021-01-30 07:47:43 +08:00 via iPhone
    懂了,这就去搜女装
    wolong
        40
    wolong  
       2021-01-30 11:30:19 +08:00
    我觉得没有用,我的淘宝号时不时会被女同事拿来下单购买一些母婴用品(有些商家搞活动,一个号只能下一单)。即使是我实打实的付款下单购买了这些商品(大概买了 4-5 次吧),淘宝也从来没有给我推荐过这些商品,就更别说靠只浏览不下单来污染人家的数据了。
    再说了,商家精准推送广告,对消费者来说未必是坏事,反正人家都要推广告的。能推到自己有兴趣的商品总比推一些莫名其妙的商品要好。
    devfeng
        41
    devfeng  
       2021-01-30 15:27:18 +08:00 via Android
    所以降低推荐匹配度的目的是啥,我一脸懵逼
    systemcall
        42
    systemcall  
       2021-01-30 15:41:06 +08:00
    没有多少意义的
    可以用 sfz 号之类的直接关联到你的实际信息。你总不可能往银行、gov dept 、工作单位那边的数据库里面投毒吧
    而且觉得你的行为可疑的情况下是会调高人机验证的频率的。对待黑产的招数,用来对待一个只有一套 profile 的普通人,再容易不过了
    大部分推荐系统本来也就是一些兔子洞,你尝试进入几个兔子洞,平台那边自然会怀疑
    terencelau
        43
    terencelau  
       2021-01-30 19:13:41 +08:00
    outlier 要多久才能被系统接受
    GreatFinger
        44
    GreatFinger  
       2021-01-31 01:32:40 +08:00 via Android
    我们说大数据下隐私暴露无遗,还轮不到你的行为兴趣画像吧,最怕的难道不是各种平台存有你的姓名身份证邮箱手机地址通讯录,购物订单列表,帐号密码等,在不知道哪些环节泄露了,然后暴露无遗嘛,这点画像,就让他画呗。与其投毒,不如多用搜索,少看个性化推荐信息流。
    yujiang
        45
    yujiang  
       2021-01-31 22:02:40 +08:00
    不如找个代购买东西然后现金 /转账来得实在,大数据的一切都基于互联网,离开网络大数据就不管用了
    no1xsyzy
        46
    no1xsyzy  
       2021-02-01 03:07:23 +08:00
    想来我的操作一直就是在投毒
    脑洞太大,总是搜索些奇奇怪怪的东西,并且脑洞大到搜索不出来
    pcatzj
        47
    pcatzj  
       2021-02-01 15:42:23 +08:00
    首先,如果你的这个投毒做不到全民应用,那么营销就一直会有意义;
    其次,即使你的人物画像模糊,厂商也不会放过你,只是推送的广告或产品不再是你感兴趣的,于厂商无碍,于你反而看到的都是自己不感兴趣的信息;
    再次,屠龙者终将成为恶龙,即使你有一天做到了全民,在与厂商你来我往的技术对决中,解决方案商(假如就是你)也一定会主动收集用户使用和生活习惯的大数据来做厂商的反识毒。
    (见解未必深刻,只做一刻消遣)
    booho
        48
    booho  
       2021-02-02 12:40:07 +08:00
    想到拿一大堆手机打开地图软件,然后不移动,制造假拥堵
    rogwan
        49
    rogwan  
       2021-02-02 13:55:50 +08:00 via Android
    这个很难“伪装”,你的支付记录暴露了一切真实行为。
    firefox12
        50
    firefox12  
       2021-02-03 17:47:59 +08:00
    哈哈 我 3 年前就实施过了, 当时写了一个项目

    用的 python + selenium, 先登录 你的淘宝 京东,然后 用一个 输入法 作为随机内容,不停搜索, 随机点击几下。

    效果还行, 现在手机了 就没做了, 我想做个用 物理操作 模拟的 或者利用 Ai 来模拟的, 可惜 AI 不会。
    sharkwan
        51
    sharkwan  
       2021-02-04 11:10:42 +08:00
    比如网上收集很多的健康码。每天全部扫一下。他是不是就不知道我在哪了???
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   968 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 21:00 · PVG 05:00 · LAX 13:00 · JFK 16:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.