糗百命令行版：最近学习正则表达式，抛弃了bs4，写了这么一个小爬虫，爬了糗百最近7天热门的糗事儿

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 4533 天前的主题，其中的信息可能已经有所发展或是发生改变。

请多多指教：http://jiabin.tk/2013/09/08/qiubai-regex/

多多指教

bs4

小爬虫

26 条回复 • 1970-01-01 08:00:00 +08:00

vibbow

2013 年 9 月 9 日

我觉得直接抓包android版的API更具有可行性......

byron

2013 年 9 月 9 日 via iPhone

@vibbow 这点儿还没睡？
我目前就会做个简单的爬虫，像抓包什么的api什么的安卓什么？的，实在是心有余而力不足啊。

Gawie

2013 年 9 月 9 日

同样学习python爬虫中~~~

missdeer

2013 年 9 月 9 日

整天只用ssh登录控制台使用机器的表示感谢！

Ansen

2013 年 9 月 9 日

python新新手学习了，

roricon

2013 年 9 月 9 日

用scrapy呗。很好的爬虫框架，简单易用。
说实话，用re直接处理html实在是太痛苦了。
用scrapy可用它内建的XPathSelector。
不想用框架的话可以用beautifulsoup。

byron

2013 年 9 月 9 日

@roricon
嗯，谢谢
scrapy没了解过，待我了解了解。
之前用过bs4，但是它的原理也是转换成正则
效率会差很多
直接正则+编译会快很多

yanwen

2013 年 9 月 9 日

py 3 可以用？？

byron

2013 年 9 月 9 日

@yanwen 我是用py 2X写的。
如果要在py 3上使用估计要改动不少地方
比如：
print
raw_input 想关联的地方等等

itfanr

2013 年 9 月 10 日

@vibbow 安卓版怎么抓？

vibbow

2013 年 9 月 10 日

@itfanr 模拟器 + WireShark

chunchu

2013 年 9 月 10 日

为什么我看到的是乱码？

byron

2013 年 9 月 10 日

@chunchu
你是在win下看的吧？
win下建议用python自带的IDLE，把编码改成#coding:cp936
cmd是会乱码的。

zhttty

2013 年 9 月 10 日

写的不错，可以用...不过有些内容会被截断，就是一句完整的话有部分不见了...

不过建议作者可以将图片链接也抓出来，保存成形如 [http://xxx.jpg] 形式，这样可以复制链接在浏览器上看。

csx163

2013 年 9 月 10 日

我记得他的RSS有当日热门的

byron

2013 年 9 月 10 日

@zhttty
可以把截断的糗事儿反馈给我么？
这里或者gist都可以。

zhttty

2013 年 9 月 10 日

@byron

截断的那几句话找不到了，好像跟一些表情符号有关。

spark

2013 年 9 月 11 日 via iPhone

楼主可以尝试Pyquery

vicence

2013 年 9 月 11 日

@byron 有vim版的qiushibaike.vim

pandada8

2013 年 9 月 11 日 via Android

@byron
bs4基于正则嗯 are you sure？bs4是基于dom的吧
如果觉得慢的话可以使用lxml + bs4的组合
soup = BeautifulSoup(html,“lxml”)
#如果我没记错的话

fengyuanjs

2013 年 9 月 11 日

在oschina也看到楼主发了

byron

2013 年 9 月 11 日

@fengyuanjs
刚学编程，发出来要大伙儿帮我多瞅瞅代码。
在oschina那里被抓到不少bug，O(∩_∩)O哈哈~

byron

2013 年 9 月 11 日

@pandada8 我记得我是看的一篇博客的，具体原理我还真不懂。

pacino

2013 年 9 月 17 日

@byron windows下改了编码仍然显示为乱码

guangwong

2013 年 9 月 18 日

pyquery、phantomjs、pyv8這些厙多好 = =。

Crossin

2013 年 9 月 18 日 via Android

这不是byron嘛，来顶你一下