packtpub 在线看体验不是很好,网速慢,所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务,在写爬虫的时候,碰到一个问题。
在 chrome 里面获取到 post 的 header , cookie ,和 post 去的 data 。
然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据,提示 invalid token 。请各位帮忙。
我的操作是具体点开一本书,就是你能够看到书的详细内容了。从 chrome 里面的 审查元素-->network-->过滤出 auth 这个 http 请求,把 request headers 里面的所有字段 bulk edit 进 postman 的 headers (当然这个里面有重要的 cookie 值),然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。
照理说这样应该可以获得和浏览器里面一样的 response 才对啊。
各位可以做个测试,看看是什么原因。
测试账户: [email protected] / 密: 1qaz2wsx3edc
希望各位拿了福利帮个忙。
1
UnisandK 2016-04-09 20:34:32 +08:00
是不是 CSFR ,每次请求 token 都在变的
|
3
nisekoi 2016-04-09 21:49:05 +08:00
|
4
wzyefd OP @nisekoi 模拟登录是可以的,我用 scrapy 也实现,问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多,所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。
比如: Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth Request Method:POST 然后我附上了 cookies ,这里略去。 最后加上 request data : {"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2§ion=ch02lvl1sec14§ion_name=NumPY"},"additional_calls":["books_saveRead"]} 这个就无法获取争取的值 |