写 packtpub 的爬虫时，碰到 post 无法成功获取的问题。内附福利给帮忙的朋友

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3190 天前的主题，其中的信息可能已经有所发展或是发生改变。

packtpub 在线看体验不是很好，网速慢，所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务，在写爬虫的时候，碰到一个问题。

在 chrome 里面获取到 post 的 header ， cookie ，和 post 去的 data 。

然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据，提示 invalid token 。请各位帮忙。

我的操作是具体点开一本书，就是你能够看到书的详细内容了。从 chrome 里面的审查元素-->network-->过滤出 auth 这个 http 请求，把 request headers 里面的所有字段 bulk edit 进 postman 的 headers （当然这个里面有重要的 cookie 值），然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。

照理说这样应该可以获得和浏览器里面一样的 response 才对啊。

各位可以做个测试，看看是什么原因。

测试账户: [email protected] / 密: 1qaz2wsx3edc

希望各位拿了福利帮个忙。

4 条回复 • 2016-04-09 22:23:58 +08:00

UnisandK

2016-04-09 20:34:32 +08:00

是不是 CSFR ，每次请求 token 都在变的

wzyefd

2016-04-09 20:37:54 +08:00

@UnisandK token 和 cookies 里面的 token 是一样的，每次都没有变化

nisekoi

2016-04-09 21:49:05 +08:00

模拟登陆吗，参考一下
https://gist.github.com/nisests/bc49eefbd5c9d3baa701fb06c75ea270

wzyefd

2016-04-09 22:23:58 +08:00

@nisekoi 模拟登录是可以的，我用 scrapy 也实现，问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多，所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。

比如：

Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth
Request Method:POST

然后我附上了 cookies ，这里略去。
最后加上 request data ：
{"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2&section=ch02lvl1sec14&section_name=NumPY"},"additional_calls":["books_saveRead"]}

这个就无法获取争取的值