1
for4 2014-04-28 13:40:01 +08:00
|
3
qonco 2014-04-28 13:51:22 +08:00
jsoup
|
4
qonco 2014-04-28 13:51:48 +08:00
正则不是用来匹配html的
|
9
bilipan 2014-04-28 15:48:20 +08:00
pyquery可以试下,语法跟jquery类似
|
10
binux 2014-04-28 15:51:04 +08:00
正则比xml建树快得多,直接用xpath,比soup,pyquery快。
即便如此,lxml单进程每秒30个页面还是没问题的。加大并发就好了。 |
11
flyer103 2014-04-28 16:31:33 +08:00 via Android
@binux 想问下 “lxml单进程每秒30个页面还是没问题的” 是如何测出来的,平均获取单个页面中的数据条目有多少?
|
13
andyhu 2014-04-28 16:44:22 +08:00
可以不用python吗?nodejs+cheerio非常爽,完全jquery的语法解析,速度也很快
|
14
kxxoling 2014-04-28 17:41:22 +08:00 via iPad
bs有坑啊!lxml!
|
15
187j3x1 2014-04-28 17:46:35 +08:00
匹配一堆相同内容 正则舒服很多 能正则就正则
|
16
dreasky 2014-04-28 17:55:49 +08:00
亲测正则的速度快最灵活
|
17
a2z 2014-04-28 18:17:35 +08:00
bs4
|
18
tomnee 2014-04-28 18:38:45 +08:00
pyquery, 套的lxml, 性能比bs好,用起来比较简单。
|
19
daiv 2014-04-28 18:51:54 +08:00
pyquery,用起来还是很舒服的
|
20
walleL 2014-04-28 19:38:57 +08:00 2
不知道大家有没有注意过这个功能, 很赞啊 |
21
okidogi 2014-04-28 23:36:25 +08:00
beautifulsoup4 使用的就是lxml的库,应该会快一些。
pip install beautifulsoup4 |
24
orancho 2014-04-29 08:36:57 +08:00 via Android
nokigiri
|
26
remnet 2014-05-06 16:11:27 +08:00
beautifulsoup 用过 感觉的确挺慢的
|