1
missqso 2015-04-27 23:34:38 +08:00
谢谢
|
2
alsacegustav 2015-04-28 00:17:48 +08:00
好用,文字、图片、格式抓取过来都正常,希望能长期使用,加油
|
3
wlwr OP @alsacegustav 会长期维护,谢谢支持哈
|
4
wizos 2015-04-28 11:02:12 +08:00
用inoreader时,抓取的内容会直接显示标签……
|
5
m3ng9i 2015-04-28 12:30:37 +08:00
不错。另外有一些符号,比如英文圆括号能不能不要编码成 ( 和 ) 啊?
|
6
m3ng9i 2015-04-28 13:04:47 +08:00
这个地址报错:Internal Server Error
http://rss.wlwr.net/weixin/oIWsFt_fzFTmSWJ96bXXqFX0yHIQ |
7
ccbikai 2015-04-28 13:12:14 +08:00
搜狗有反爬虫,你做处理了吗?
|
8
hanqian 2015-04-28 13:36:43 +08:00 1
用 inoreader 看时,有些会显示代码。。
|
9
siriusVtoEX 2015-04-28 13:45:38 +08:00
@wizos 同样的问题
|
14
ccbikai 2015-04-28 16:19:32 +08:00
@ccbikai 不只是 IP ,还有 cookies ,有人 做过 http://bozpy.sinaapp.com/blog/24
|
15
mrjoel 2015-04-29 09:29:07 +08:00
额 仔细看了下 是订阅公众号内容。。
|
16
wizos 2015-05-01 16:05:26 +08:00
好像没用了……
|
18
mytion 2015-05-02 22:02:41 +08:00
不错,已经收藏使用,希望长期保持。加油
|
22
zangbob 2015-05-05 13:02:52 +08:00
@wlwr 感谢楼主的作品,希望能长期运行。
PS:貌似html代码过滤不干净。。。比如这个: http://rss.wlwr.net/weixin/oIWsFt2w7J2ciAdD722lQRr6_Tec |
24
xcz 2015-05-18 20:10:55 +08:00 via Android
这个不做过滤在inoreader里面看见的真的很纠结啊,别的没有测试,楼主用什么RSS阅读器?
|
26
berry10086 2015-05-20 12:09:19 +08:00
楼主是抓取搜狗的gzhjs这个地址吗
|
27
berry10086 2015-05-20 12:09:40 +08:00
现在好像又是数据采集异常
|
28
wizos 2015-05-22 13:46:37 +08:00
换用http://weirss.me/吧
|
29
wlwr OP @berry10086 是的,搜狗接口做了加密处理,导致采集失败。问题已修复,可以正常使用了。
|
30
berry10086 2015-05-23 09:42:31 +08:00
@wlwr 我也试着写了一个,http://weirss.me,抓取是直接用selenium + phantomjs,解析js渲染后的html,不用考虑cookies和接口变化。但是问题是抓取速度太慢,有时会超时
|
31
berry10086 2015-05-23 09:59:39 +08:00
@wlwr 你的网站抓取非常快
|
32
wlwr OP @berry10086 当时也有考虑过phantomjs,但等待请求的资源过多,还是选择直接调接口。不过维护成本高些。
|
33
somkanel 2015-05-25 17:53:07 +08:00
只能是订阅号嘛?不知为何搜狗搜不到我想找的服务号啊
|
34
Williamzhang515 2015-05-25 18:28:23 +08:00
题图似乎无法显示啊
|
36
wlwr OP @Williamzhang515 文章封面图的问题修复了,后面订阅的文章会显示封面图
|
39
sinosure 2015-05-27 12:27:12 +08:00
@wlwr 奇怪,开始能跑,但运行一段时间后就再也不能跑了,始终报错
listening on port 3000 <-- GET / <-- GET / --> GET / 200 337ms - --> GET / 200 352ms - <-- GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg <-- GET /favicon.ico --> GET /favicon.ico 404 12ms - [SyntaxError: Unexpected end of input] --> GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg 200 3,074ms - |
41
vchard 2015-05-27 18:15:42 +08:00
这个不错,就是有的文章只有标题没有内容。
|
42
gzany 2015-05-27 18:32:11 +08:00
之前一直在用,很不错!!
|
44
sinosure 2015-05-28 09:20:17 +08:00
@berry10086 看来还是基于网页的最稳定啊,有考虑开源么
|
45
icsonzhou 2015-05-29 08:27:01 +08:00
|
46
vchard 2015-05-29 09:17:41 +08:00
无法更新了
|
47
fuckgfw 2015-05-29 09:41:25 +08:00
采集异常,无法获取数据
|
48
berry10086 2015-05-29 10:35:52 +08:00
@sinosure 会开源的,但是现在还没有完全做好,还有一些问题
|
49
vchard 2015-05-29 11:34:59 +08:00
已经很好了。恢复原装就可以,能更新就行!
|
50
cainiao 2015-06-07 20:31:32 +08:00
又挂了,无法采集了
|
51
wlwr OP @cainiao 恢复了。搜狗限制了频率,请求量较多会造成不定时抽风。建议取代码 https://github.com/wlwr/rss 自己搭建一个。
|
52
ulic95 2015-06-18 11:19:39 +08:00
现在又采集异常了
|
54
WenyiJi 2015-07-31 13:01:48 +08:00
请问lz还在更新这个作品吗?网页打不开了
|
55
globetour 2016-07-09 12:57:22 +08:00 via Android
安装后可以正常用,但是两个小问题。
1 ,系统后台运行一段时间后自动退出了,不知什么原因。 2 ,这个能绕过搜狗的反爬机制吗? |
56
globetour 2016-07-09 16:36:42 +08:00
第 3 个问题
RSS 里好像是取每次群发的第一篇文章,其余的就没有了。 |
57
knightliao 2016-12-20 13:44:52 +08:00
|
58
knightliao 2018-06-13 13:43:14 +08:00
|