理论上爬虫能爬取到所有我们看到的页面吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4183 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果每次浏览器和服务器的通信都有一个token，而我们又无法看懂到底是什么，那么我们的爬虫是不是就无法爬取页面信息了啊?

11 条回复 • 2014-04-29 10:18:33 +08:00

Esay

2014-04-02 14:17:58 +08:00

是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。

asing

2014-04-02 14:24:30 +08:00

lz的问题可以这样理解不

如果一个网站的管理后台路径是example.com/ksdks31
这样爬虫也抓取不到吧

这样只需书签下地址就可以，也不用做ip访问限制等策略了.

jsonline

2014-04-02 14:25:09 +08:00 via Android

天天有人研究爬虫

binux

2014-04-02 14:31:40 +08:00

我们看到页面是一个获得信息，消除信息不确定性的过程，爬虫也是

dorentus

2014-04-02 15:46:59 +08:00

理论上么，爬虫和浏览器一样都是 user agent，自然能做的东西都是一样的……

cxh116

2014-04-02 15:49:03 +08:00

像某些小说站,内容都生成图片了,这个应该是无法索引

msg7086

2014-04-02 17:40:54 +08:00

@asing 说不定就有浏览器连书签也爬虫给你看

xh1994

2014-04-03 00:13:21 +08:00

不能！那些通过 ajax 加载内容的页面你怎么爬？而且现在这样的页面越来越多了！

mengli

2014-04-03 00:14:46 +08:00 via Android

@cxh116 弄个orc文字识别如何？你总不可能把文章加工的很验证码一样。

cxh116

2014-04-06 19:38:38 +08:00

@mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题

zoosucker

2014-04-29 10:18:33 +08:00

@xh1994 我用selenium + Python做的一个爬虫，类似自己一个一个点击，这样就可以搞定Ajax的了。