|  |      1vibbow      2013-09-09 04:13:39 +08:00 我觉得直接抓包android版的API更具有可行性...... | 
|  |      2byron OP @vibbow 这点儿还没睡? 我目前就会做个简单的爬虫,像抓包什么的api什么的安卓什么?的,实在是心有余而力不足啊。 | 
|  |      3Gawie      2013-09-09 08:32:20 +08:00 同样学习python爬虫中~~~ | 
|      4missdeer      2013-09-09 08:37:06 +08:00 整天只用ssh登录控制台使用机器的表示感谢! | 
|  |      5Ansen      2013-09-09 08:44:34 +08:00  1 python新新手学习了, | 
|  |      6roricon      2013-09-09 12:46:02 +08:00 用scrapy呗。很好的爬虫框架,简单易用。 说实话,用re直接处理html实在是太痛苦了。 用scrapy可用它内建的XPathSelector。 不想用框架的话可以用beautifulsoup。 | 
|  |      7byron OP | 
|  |      8yanwen      2013-09-09 12:55:40 +08:00 py 3 可以用?? | 
|  |      9byron OP | 
|  |      12chunchu      2013-09-10 11:06:24 +08:00 为什么我看到的是乱码? | 
|  |      13byron OP | 
|  |      14zhttty      2013-09-10 12:26:26 +08:00 写的不错,可以用...不过有些内容会被截断,就是一句完整的话有部分不见了... 不过建议作者可以将图片链接也抓出来,保存成形如 [http://xxx.jpg] 形式,这样可以复制链接在浏览器上看。 | 
|  |      15csx163      2013-09-10 12:39:13 +08:00 我记得他的RSS有当日热门的 | 
|  |      18spark      2013-09-11 12:16:16 +08:00 via iPhone  1 楼主可以尝试Pyquery | 
|      20pandada8      2013-09-11 21:19:06 +08:00 via Android @byron  bs4基于正则 嗯 are you sure?bs4是基于dom的吧 如果觉得慢的话可以使用lxml + bs4的组合 soup = BeautifulSoup(html,“lxml”) #如果我没记错的话 | 
|  |      21fengyuanjs      2013-09-11 23:22:23 +08:00 在oschina也看到楼主发了 | 
|  |      22byron OP | 
|  |      25guangwong      2013-09-18 01:40:16 +08:00 pyquery、phantomjs、pyv8這些厙多好 = =。 | 
|  |      26Crossin      2013-09-18 01:46:08 +08:00 via Android 这不是byron嘛,来顶你一下 |