V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kuichieh
V2EX  ›  Google

如何移除 Google 搜索中被引流站爬取的内容

  •  
  •   kuichieh · 2021-04-28 13:01:02 +08:00 · 3108 次点击
    这是一个创建于 1310 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站上存在一些敏感信息,关键词被 Google 爬取到了。现在在源网站中移除了相关内容,使用 Google 的更新 Cache 使得关键词的搜索内容也从 Google 搜索结果中移除。

    现在的问题是之前的搜索被一些博彩网站爬取了,导致当前 Google 搜索关键词,出来的都是这些引流网站,并包含了敏感的缓存内容。点击这些引流网站,跳转到的也是其他网站的内容(不存在实质性内容,我理解就是欺骗点击量)。

    因此我尝试了向 Google 举报 Spam,结果一个多月过去了还是没有变化。尝试更新 Cache,被 Google Deny 。这些结果要怎么移除呢?
    23 条回复    2021-04-30 01:43:36 +08:00
    Vhc001
        1
    Vhc001  
       2021-04-28 13:16:56 +08:00
    也就是说,现在你点击 Google 搜索结果中你网站的链接还是会跳转到博彩网站,对吧?
    kuichieh
        2
    kuichieh  
    OP
       2021-04-28 13:20:02 +08:00 via Android
    @Vhc001 是的,会跳转到博彩网站,但 Google 缓存的是敏感信息。
    hongweiliuruige
        3
    hongweiliuruige  
       2021-04-28 13:44:07 +08:00
    没懂,你的关键词不是没了吗,
    kuichieh
        4
    kuichieh  
    OP
       2021-04-28 13:51:31 +08:00
    @hongweiliuruige 源网站的关键词没了,引流网站的 Google 缓存里还有。
    Vhc001
        5
    Vhc001  
       2021-04-28 14:04:49 +08:00
    @hongweiliuruige #3 简单来说就是楼主的网站被人入侵并留下了后门,现在通过 google 搜索点进楼主网站会自动跳转到博彩网站。可笑的是楼主认为这一切都是 google 的错!
    kuichieh
        6
    kuichieh  
    OP
       2021-04-28 14:12:41 +08:00
    @Vhc001 不是被入侵,是搜索内容爬取。如果你遇到过这种情况你就知道我说的是什么了,比如你用 Google 搜某个关键词,看到几条相关的结果,点进去结果是跳到其他无关网站。我想删除的就是这些结果。
    xmumiffy
        7
    xmumiffy  
       2021-04-28 14:13:58 +08:00
    @Vhc001 应该说的是之前被菠菜网站把网站爬了,现在还能从它们那边搜索到信息.那这个没救的
    Vhc001
        8
    Vhc001  
       2021-04-28 14:16:04 +08:00
    @xmumiffy 这是什么操作。。。
    hongweiliuruige
        9
    hongweiliuruige  
       2021-04-28 14:44:45 +08:00
    意思是菠菜网站弄了个和你网站一模一样的站点,然后你自己的删了,之前那些关键词还能搜到菠菜的,然后因为里面的内容和你网站一样,所以可能对你网站声誉造成一定影响,你想给他封了是这样吗
    kuichieh
        10
    kuichieh  
    OP
       2021-04-28 15:17:35 +08:00
    @hongweiliuruige 大致是这个意思,但还有些小区别。这些菠菜是爬了内容,但似乎对 Google 作了优化,Google 去访问看到的应该是被爬了的内容(并缓存了网站之前的敏感信息),而正常用户访问得到的只有菠菜信息。

    问题是源网站之前有敏感信息,现在我已经修改了,但是因为这些菠菜网站,导致 Google 搜索时还会从 Google Cache 中出现这些信息。我想给他删了或封了。
    pcbl
        11
    pcbl  
       2021-04-28 15:28:28 +08:00 via Android
    不用想了,别人的网站不是你想删就删的
    Al0rid4l
        12
    Al0rid4l  
       2021-04-28 15:45:18 +08:00
    @kuichieh 那这个问题, 说明中引入 Google 这一无关要素只会让人更迷惑吧...简单概括其实你就是想删掉别人站里面的内容而已, Google 在这个问题描述中纯粹是个干扰项
    kuichieh
        13
    kuichieh  
    OP
       2021-04-28 16:13:08 +08:00
    @Al0rid4l 我觉得删掉别人站里面的内容是不太可能的吧,我现在只想删除 Google 搜索结果
    Al0rid4l
        14
    Al0rid4l  
       2021-04-28 16:23:47 +08:00
    @kuichieh 那这么多搜索引擎, bing 的要不要删掉, 百度的要不要删掉, 不解决实际问题啊, 有点掩耳盗铃的味道
    580a388da131
        15
    580a388da131  
       2021-04-28 16:24:39 +08:00
    580a388da131
        16
    580a388da131  
       2021-04-28 16:25:43 +08:00
    kuichieh
        17
    kuichieh  
    OP
       2021-04-28 16:41:49 +08:00
    @Al0rid4l 这么说也是,不过只有 Google 有这个情况,其它搜索引擎都不会收录这些奇奇怪怪的网站💊
    dsg001
        18
    dsg001  
       2021-04-28 16:45:12 +08:00
    不用想了,做不到

    已经进入菠菜的数据库,即使现在的网站移除了,这些数据还是会被拿来做新网站,重新出现在搜索页面
    docx
        19
    docx  
       2021-04-28 19:28:43 +08:00 via Android
    试试找 Google 举报投诉,但是很难
    janus77
        20
    janus77  
       2021-04-28 20:18:16 +08:00
    你的源内容已经删了,你需要证明那个爬取的内容是从你这里爬的。
    如果你证明不了,那我觉得爬取的内容没有危害到你的信息,就没必要去处理
    如果你能证明,那可以拿着证据去举报一下吧
    HenryGe
        21
    HenryGe  
       2021-04-28 22:12:09 +08:00
    如果能知道爬虫是怎么爬取的内容,让爬虫再爬一遍,把原来的内容洗掉就可以了。
    kkocdko
        22
    kkocdko  
       2021-04-28 23:53:24 +08:00
    几乎没有办法。因为数据并不仅仅存在于 Google 的缓存中,也存在于那些菠菜的网站里。菠菜的网站似乎并没有明显违反 Google 的规定,因此也很难投诉成功。
    我所想到的只有:尽量将敏感数据变得不敏感。例如,泄露了密码,就修改密码,那么旧密码就不属于“敏感信息”了
    PolarBears
        23
    PolarBears  
       2021-04-30 01:43:36 +08:00
    @kkocdko 还有可能是被要求清查网站内有没有涉及到某人或某事相关的文章,还要截图各种搜索引擎和微博之类的,报告已经清理干净了这种.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1628 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:59 · PVG 00:59 · LAX 08:59 · JFK 11:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.