V2EX 验证码为什么做的这么复杂？还是因为我识别能力差？比google的还难识别，搞不懂为什么，求解！

识别

Google

V2EX

40 replies • 1970-01-01 08:00:00 +08:00

1

eilif

Mar 16, 2012

同意啊，非常难搞

2

66450146

Mar 16, 2012

我觉得比reCaptcha强多了。。。

3

fanzeyi

Mar 16, 2012

@66450146 V2EX 的验证码不就是 reCAPTCHA 么？

reCAPTCHA 是我见过的验证码中人类识别率最高的一个了

4

huiyizhang

Mar 16, 2012

就是不想让人注册

5

fanzeyi

Mar 16, 2012

对了还有一个槽点

这个验证码就是 Google 的服务

6

kernel1983

Mar 16, 2012

reCAPTCHA的眼中我们都不是人

7

SamuelBinYE

Mar 16, 2012

你可以刷新直到清晰的字符出现

8

pepsin

Mar 16, 2012

验证码还是pp书屋的好嘿嘿～～～

9

depthsky

Mar 16, 2012

Google Books扫描了几十万本纸质书，它是如何完成数字化，以利于复制、供人检索的？原来是Google实验室项目reCAPTCHA在帮忙，扫描后的图片被裁减成一个个单词片段，用于网站防止机器注册时显示的验证码：人们在输入验证码的同时不知不觉就完成了图书数字化过程。世界各地图书馆有很多受损的古籍，页面泛黄、纸张脆弱，OCR是无能无力的，它无法识别褪色的和模糊的文本，而人类在这方面有卓越的表现。reCAPTCHA将我们输入的验证码正确识别后，拼接、排版，在化整为零中就完成了古籍的数字化。

10

lizheming

Mar 16, 2012

LS让我感觉Google在下一盘很大的棋，哈哈！

11

brando

Mar 16, 2012

這圖片看得確實累。註冊看不清的時候只能多刷新到清晰的圖片出現位置。

12

fanzeyi

Mar 16, 2012

来怎么这么多人说看着累..

我做了个测试..

测试了18张验证码..

不直接贴图了, 豆瓣相册： http://www.douban.com/photos/album/66779038/

后一张的 success/failed 是前一张的结果..嗯

13

money

Mar 16, 2012

当初为什么会出现验证码呢

14

fanzeyi

Mar 16, 2012

又做了14个测试.. 修改了下测试用的页面.. 显示出了填入的内容..

然后在相册里提供了 scrot 的文件名.. 可以从中推算出我识别验证码用的秒数..

15

donie

Mar 16, 2012

那个google 图书扫描的段子一直有个问题想问。。。既然OCR无法识别，reCAPTCHA怎么判断用户录入是正确的。。。

16

Elix

Mar 16, 2012

@depthsky 我怎么觉得不符合逻辑啊？首先验证码必须有个“正确的答案”，如果通过您叙述的方法，验证码最初那个正确的答案从哪来的呢？

17

caomu

Mar 16, 2012 via Android

吐槽验证码的你们都弱爆了，不就是为古籍ocr做点贡献么，那么气急败坏干嘛。

18

fanzeyi

Mar 16, 2012

俺的测试结果显示人工识别率为 26/30 这个准确率能称得上复杂？

19

fanzeyi

Mar 16, 2012

https://gist.github.com/2049177

这是测试用的代码 judge.base 就是 tornado.web.RequestHandler ..

reCAPTCHA 的代码来自于@lepture 的 tornado.third 项目..

20

cutehalo

Mar 16, 2012

@donie @Elix 好像是根据这个验证码输入最多的答案来选择正确答案吧。。。不过最开始是怎么判断的我也混乱了- -！

21

gDD

Mar 16, 2012

@Elix @donie @cutehalo

唉，给你们看来文档了：

> But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

via [ https://www.google.com/recaptcha/learnmore ]()

22

cutehalo

Mar 16, 2012

@gDD 好先进我说怎么有俩分开的验证码呢。。。

23

momou

Mar 16, 2012

@Elix @donie reCAPTCHA 的验证码分为两部分，有一部分是已知的，只要这一部分对了就可以验证，另一部分完全是为了人工识别面出现的，以后根据识别最多的答案作为该部分的识别。。。

24

donie

Mar 16, 2012

@gDD THX :)

25

TONYHEAD

Mar 16, 2012

比较容易识别的那部分正确就可以了.

26

Elix

Mar 16, 2012

@momou @gDD Thx

27

Jreen

Mar 16, 2012

其实我反复刷新到能识别的单词为止。

28

fanzeyi

Mar 16, 2012

@eilif @huiyizhang @kernel1983 @Jreen 我还是不明白为什么你们识别不出来.. 我人肉都能达到26/30的准确率你们还觉得这个很难么？

29

deepure

Mar 16, 2012 via iPhone

@fanzeyi 是不是复杂不是用你这么算的，对于大多数普通用户来说，相比常见的验证码，第一眼看上去就复杂多了。
而且普通用户也不会知道只需要对一部分，这个跟用户的认知模型是不同的。
单从输入字符上讲也比常见的验证码多。就好像即使汉字验证码容易识别，但心里仍然觉得不如四字母方便

30

whtsky

Mar 16, 2012 via Android

没见过验证码…

31

mjar

Mar 16, 2012

一直不知道两个词中间要不要空格。。

32

sqbing

Mar 16, 2012

@depthsky 是真的吗?!这难道是文字识别界的nuance?

33

agui

Mar 16, 2012

恩恩，又长见识了~每次在这总能学到点新的东西

34

depthsky

Mar 16, 2012

这是谷歌的众包模式，能够解决机器识别不了的问题。

35

lepture

Mar 17, 2012

@fanzeyi 他们试着说明你的高级用户呢。我的识别率也不错。

36

Jreen

Mar 18, 2012

@fanzeyi
平常我能识别，但扭曲过大或者很相似的字幕我无法识别。你那豆瓣的图我能之别。

37

fanzeyi

Mar 18, 2012

@Jreen 额那个是完全随机出来的……

38

zythum

Mar 18, 2012

@Elix @fanzeyi 记得有个站的验证码是段代码，让你给结果才能通过...
记不得是哪个了

39

liuhang0077

Mar 18, 2012

@zythum www.ppurl.com

40

zythum

Mar 18, 2012

@liuhang0077 老师下次出题目都不用默默想半天了。