手把手教你写妹子图爬虫再次更新一发，这次先出个问题，再安利美女学霸一枚

好久不更，这次先一个问题，大家试着自己能不能解决哦~~

主角就是这个网站中的美女学霸照片。
https://www.zhinsta.com/profile/527439732/

首先分析一下思路，这个网站明显也是抓 instagram 上的照片导入过来的，至于 instagram 爬虫又现成的解决方案，先按下不表。你要解决的只是抓美女照片这个需求的话，直接墙外搞个服务器爬下来即可。

现在的限定是，在墙内的情况下只是抓在这个服务器上的照片。

注意，我分析的时候发现有 tricky 的地方，明显没有妹子图这么好抓。下一页和更多没有使用显式的链接，没有什么规律。

这个时候，就可以放出比较高级的爬虫技巧，比如，之前我做的笔记里

大侠先试试看

上图，剑桥化学系女学霸~~

爬虫

解决方案

服务器

31 条回复 • 2015-05-25 01:11:07 +08:00

2015 年 5 月 23 日

这排版有一种氯的味道
>_<

ChiangDi

2015 年 5 月 23 日

看了她的 weibo ，感觉基因好完美，应该很多男生会有跟她繁衍后代的欲望。。。

ddqp

2015 年 5 月 23 日

顶！

libraor

2015 年 5 月 23 日

你们都没发现照片都不是她自己，而是另外一个很亲密的人拍的么？so，骚年啊，不要YY了，快去写代码吧。。

jason52

2015 年 5 月 23 日

@49 这是神马意思？？？
@ChiangDi 说的好文艺~~
@ddqp 和你的头像以及楼上完美的契合~~

@libraor 然而也并没什么luan用~~

jason52

2015 年 5 月 23 日

feiyuanqiu

2015 年 5 月 23 日

@jason52 哈哈哈，都去看美女去了
你主楼的问题是要解决 js 生成的页面的抓取吗？那可以看看 PhantomJS http://phantomjs.org/

neone

2015 年 5 月 23 日

忍不住点开她微博看了下（原谅我，我还是一个少年）。另外，思路的话由于对爬虫不是很了解，所有并不敢大声说话。

jason52

2015 年 5 月 23 日

@feiyuanqiu 恩，还有个casperjs，基于你说的这个封装了一层，我考察了一番~~~

mianju

2015 年 5 月 23 日

说好的手把手教程呢？

vjnjc

2015 年 5 月 23 日

你们是怎么找到她得weibo得，有诀窍么？

jason52

2015 年 5 月 23 日

@vjnjc

vjnjc

2015 年 5 月 23 日

@jason52 。。。果然我还是个新手哈哈哈

staticor

2015 年 5 月 23 日

本来就是想学习Python技术的. 搞这么一个照片弄没心情学了- .

binux

2015 年 5 月 23 日

完全没有看出来这个页面有什么难的了。。
http://demo.pyspider.org/results?project=zhinsta

jason52

2015 年 5 月 23 日

@binux 虫叔粗线~~这个解好简洁~~~我靠，这个框架好~~

Sin

2015 年 5 月 23 日

@49 居然看懂了>_<

jason52

2015 年 5 月 23 日

@Sin 被你这么一说，我也懂了~

我感觉楼下会有数字粗线~

jason52

2015 年 5 月 23 日

@binux 话说pyspider一出，爬虫其实就不用写"程序"啦。主要就是写一个配置文件定义一下所要的参数，所有的循环和判断部分可以省掉了。

binux

2015 年 5 月 23 日

@jason52 配置文件永远没有程序灵活

jianghu52

2015 年 5 月 23 日

我比较笨。用的是比较笨的方法。
这个页面写的挺规矩的。要是我爬的话，首先进入第一页就不用说了。
然后Beautiful Soup来遍历文件，class= photos的只有一个地方，下面的ul 下面的li 里面就是图片了。
之后 [更多] 里面的href也写的比较明白。直接拼好连接做一个迭代再继续模拟访问。就能得到新的一页。
这样就能一直到最后一页。至于最后一页有没有 [更多] 我也不知道。快12点了。我准备睡觉了。以上纯粹脑洞。如果有问题，欢迎拍砖。