1
binux 2013-12-16 14:53:26 +08:00
search啊,还是<title>,我还以为你是取搜索结果的title
那用findall替换search试试?<title>位置太靠前了 |
2
dorentus 2013-12-16 15:17:18 +08:00
Never parse HTML with regex: http://stackoverflow.com/a/1732454/90172
链接内容简言之: 1) HTML 不是正则语言,无法用正则表达式解析; 2) 如果 HTML 是已知的,问题还可以掌控; 3) 类似爬虫这种,你永远不会知道你会遇到怎样复杂的 HTML; 4) 合法的 HTML 都无法用正则解析,更不用说你还会碰到不合法但是浏览器可以支持的 HTML 了。 |
3
PrideChung 2013-12-16 15:29:33 +08:00
|