1
Esay 2014-04-02 14:17:58 +08:00 1
是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。 |
2
asing 2014-04-02 14:24:30 +08:00
|
3
jsonline 2014-04-02 14:25:09 +08:00 via Android
天天有人研究爬虫
|
4
binux 2014-04-02 14:31:40 +08:00
我们看到页面是一个获得信息,消除信息不确定性的过程,爬虫也是
|
5
dorentus 2014-04-02 15:46:59 +08:00
理论上么,爬虫和浏览器一样都是 user agent,自然能做的东西都是一样的……
|
6
cxh116 2014-04-02 15:49:03 +08:00
像某些小说站,内容都生成图片了,这个应该是无法索引
|
8
xh1994 2014-04-03 00:13:21 +08:00
不能!那些通过 ajax 加载内容的页面你怎么爬?而且现在这样的页面越来越多了!
|
10
cxh116 2014-04-06 19:38:38 +08:00
|