到目前为止，到底有没有一种防爬虫但是不会误伤谷歌爬虫的完美方法？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3160 天前的主题，其中的信息可能已经有所发展或是发生改变。

自己一个网站，都是自己辛辛苦苦用键盘敲出来的数据，纯原创站，自己很用心在做这个网站，但是说实话，一个新手都可以用火车头不费吹灰之力把我的网站数据全爬过去，其实如果不是谷歌的话，我想了很多种防爬虫的手段，比如：

js 生成数据，抓取 phantomjs 之类的 headless 浏览器的特征码， ban 掉它
同一个 ip 短时间内抓取数据太多， ban 掉它
没有 header 之类的访问， ban 掉它
检测客户端访问抓取 css 文件没有，没有的话就 ban 掉它
客户端 js 加密一个 token ，和服务器端公用一个 key 来解密，每次提交都要验证这个 token
学习Flickr一样，任何搜索结果只显示4000个结果，避免一次性清仓大处理被爬虫抓完了，后台把sitemap所有数据提交给谷歌，但是貌似这样会不会伤及SEO，毕竟内链之间就断开了

感觉这些合在一起基本可以过滤大部分新手了，但是，这些很有可能把可爱的谷歌爬虫给误伤了，现在服务器端验证 header 为 Googlebot 貌似也不起任何作用，都可以伪造，大家有哪些防爬虫但是不会误伤谷歌爬虫的完美方法？讨论一下，谢谢

防爬虫

Ban

误伤

token

46 条回复 • 2018-08-09 07:57:38 +08:00

just4test

2017-01-18 11:29:42 +08:00

不是可以通过 IP 验证吗

alwayshere

2017-01-18 11:33:43 +08:00

@just4test 谷歌有哪些 ip ？

vbs

2017-01-18 11:36:06 +08:00

搜索关键字：
google crawler 验证

alwayshere

2017-01-18 11:39:23 +08:00

@vbs 谢谢，世界上搜索引擎还有很多， bing yandex 百度搜狗之类的感觉验证完好渺茫

rocksolid

2017-01-18 12:40:19 +08:00

如果不嫌麻烦能不能先放部分数据，部分垃圾数据，等过个一两天再把真实数据更新上去

gouchaoer

2017-01-18 12:42:12 +08:00 via Android

天真

binux

2017-01-18 12:44:08 +08:00

没有。即使假设有，再不济，我去抓 google 不就好了。

danmary61

2017-01-18 12:45:30 +08:00

这个真没有

KeepPro

2017-01-18 12:45:55 +08:00 via Android

把所有的数据展示都放到 canvas 里面显示，或者生成图片。

annielong

2017-01-18 12:48:40 +08:00

折中方案就是显示一半，剩下的加个强验证，通过后显示，

sobigfish

2017-01-18 12:49:56 +08:00

不用每次访问都验证 IP 啊，首次见的（疑似） bot 验证，过了的 IP 就加入到你特定的白名单里

Zzzzzzzzz

2017-01-18 12:50:41 +08:00

没有，而且各引擎为了评估网站是否针对它们吐数据作弊，都会有其他非公开的 UA 和 IP 段的爬虫做检验，你这样反而适得其反

mnhkahn

2017-01-18 12:51:52 +08:00

useragent 可以判断

golmic

2017-01-18 12:54:41 +08:00 via Android

楼主能不能告诉我地址我想练练我的爬虫技能...

doubleflower

2017-01-18 13:26:16 +08:00

内容里面随机插网站名字 /网址，别人相当于给你免费宣传了

smallaccount

2017-01-18 13:28:35 +08:00

搜索引擎原创识别才是最根本的吧
另外就是版权的法律保护，国外如果 copy 的话貌似可以直接主机商关站的

clino

2017-01-18 14:21:12 +08:00

ip 确实可以哈 https://support.google.com/webmasters/answer/80553
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

TaMud

2017-01-18 14:34:57 +08:00

你都把衣服脱光了给人家看了
你说你要怎么样保护密秘？？

你可以把整个网页变成一张图片

你也可以把整个网站做成一个 flash

usernametoolong

2017-01-18 15:35:06 +08:00

你不放网址我们怎么帮你提高一下？（捂脸

ningcool

2017-01-18 15:58:36 +08:00

纯原创的话，一天你写不了几篇文章。所以，哪怕你技术上屏蔽了别人，你无法阻挡别人去复制啊！

ihuzhou

2017-01-18 16:02:07 +08:00

@golmic 兄台爬过网易云的吗，我被里面的加密难住了

grayon

2017-01-18 16:57:53 +08:00

您使用的 IP 访问网站过于频繁,为了您的正常访问,请先输入验证码

hyuwang

2017-01-18 17:07:14 +08:00

可以数据不要放全
让浏览引擎索引到关键字和标题就行了

用户浏览的时候多点一下才能拿到全部的 content
感觉现在挺多国外网站这么干

TaMud

2017-01-18 17:50:09 +08:00

难道你们不知道有 selenium 这东西？？？

rockivy

2017-01-18 18:05:08 +08:00

插个题外话，以前还真的爬过 canvas 画的数据。比如下面这个 URL 里面：

http://v.qq.com/datacenter/0dfpyvfa7tp0ewe.html

一些具体的数字就是用 canvas 画出来的。

办法就是先截图，然后调用 OCR 识别图片上面的数字。
当时用的 tesseract ，对数字的识别准确率还蛮高的（当然对图片有些简单的放大和二值化处理之后，准确率才上来的）。

不过，上面这个腾讯的视频指数页面，有些别的反爬处理，很难搞，最终还是放弃了。