1
Kokororin 2017-07-20 14:55:40 +08:00
用 jQuery.ajax 请求指定网页,再用选择器抓取,这个应该没什么难度
|
2
dynastysea OP @Kokororin 主要是爬取帖子列表里的每个帖子的内容,然后做聚合,这个也是用 jquery 可以实现吗
|
3
mansur 2017-07-20 15:45:14 +08:00
requests
|
4
Kokororin 2017-07-20 15:48:40 +08:00
@dynastysea 用 jq 最方便,chrome 扩展无视跨域,随便你怎么抓
|
5
freeminder 2017-07-20 15:53:49 +08:00
拿 python request 下好内容自己拼一个 html 存在临时目录,然后 system 一个 open/start 这个 html 不就可以了吗?
|
6
autoxbc 2017-07-20 19:33:48 +08:00
原始的论坛页面有丰富的前端代码,抓取内容生成页面很可能无法继承必要的结构和功能。不如就在原始页面上,通过 ajax 获取列表中帖子的内容,过滤出一个定制版。
粗略估计二十行代码就足够,不需要什么技巧。js 是 Web 的原语,实现功能事半功倍,这点其他语言比不了。 |
7
dynastysea OP @autoxbc 这里还需要爬取每个帖子的内容,二十行搞不定把,而且 js 做爬虫也不是长项
|
8
autoxbc 2017-07-20 20:15:48 +08:00
@dynastysea 我说的够保守了,原来想说十行就够了。爬每个帖子,就是一行选择器加一个回调,没什么复杂的。当然如果做出的扩展要给别人用,那要有些外围代码。
|
9
soulmine 2017-07-21 11:18:13 +08:00
@dynastysea js 抓取论坛帖子链接这种情况 直接用 for each 原生并发不比 python 还要写多进程 强么
|