feed43 是个好网站,我做了一大堆 rss 源爬各类 g0v 招聘信息,用的很爽 虽然前几个月 feed43 偷偷摸摸把一次输出信息从 100 条降为 20 。。但我还是忠诚的使用它! 但是现在遇到疑难问题!
测试网站 1 : http://www.zjhrss.gov.cn/col/col_1985059/index.html 测试网站 2 : http://www.xsks.gov.cn/ExamInfolist.aspx?ClassValue=10
这两个网站都使用 JS 输出, feed43 这种 HTML 纯文本抓取方式没辙了! 第二个站只能抓取左侧栏那些信息,我担心错过消息啊,我想抓主栏目的条目! 或者谁能找一个 JS 输出的地址,方便我爬么?我通过 firebug 找了半天实在不行。。。
或者有更多支持 JS 抓取的 rss 站点推荐? 我搜了很久, feed43 的功能可以说是全互联网唯一的(通过定制可以输出干净整洁的 rss 文本),没有任何替代网站啊~
我不是程序猿,谢谢,请不要说什么“自己做一个爬虫”之类的话,要是能自己做我就不会求助了…… 任何意见都可以,求任何点拨!我现在毫无思路啊!
不能换抓取地址,因为我需要官方消息。
我用一剪下来指甲打赌,没人回....T_T
1
UnisandK 2016-09-12 16:23:05 +08:00 1
第一个网站的内容是朝 http://www.zjhrss.gov.cn/gotoPage.do POST 的,内容为
channelId=1985059&subStr=35&childoption=1&toPage=1&pageSize=15 第二个网站的内容是朝 http://www.xsks.gov.cn/include/NewsInfo.ashx?ClassValue=10 POST 的,内容为 Action=getPageData&start=0&end=20 不是 JS 输出,但的确必需先有一个服务转成 GET 获取才可以用 feed43 抓 |