获取下来的页面代码是这样的
<span class="rb504"></span>
他要执行一段 js 如
$(document).ready(function () {
$('.rb504').html(8080);
});
最后页面展示
<span class="rb504">8080</span>
在不使用无头浏览器的情况下
可以通过 bs4 和 execjs 处理后返回最终渲染后的页面代码吗
如果有其他方案也行,无头浏览器效率太低了
1
yankebupt 2023-04-05 08:13:19 +08:00 1
(事先声明,可能没有帮助)
看你的样子是抓纯文字……不在乎样式、图片什么的…… 无头浏览器你屏蔽图片了么? |
2
llsquaer 2023-04-05 11:21:02 +08:00 2
看你演示代码也不算复杂..直接正则匹配下 js 中的代码就好了啊.何必去考虑模拟渲染啥的,没那么复杂
|
4
wgit OP @llsquaer 目前是在用正则的,在想要是以后遇到比这个复杂的
无头要打开一个页面要发送至少十几个请求 只请求页面源代码的话只需要发送两个请求 如果网站限制每分钟最多多少次访问的话 在不增加代理 ip 数量的情况下,能不用无头是最好的 |
5
yankebupt 2023-04-05 16:02:49 +08:00 1
我只是觉得.ready 不是个好兆头
现在看着是个.ready 很简单,将来可能会挂一堆 eventListener,setInterval 和 Promise 在上面,利用事件的冒泡顺序来生成…… 或者利用浏览器特定的非固定 tag 会被挤到 container tag 之外或者挤没之类的特有特性来验证混淆,逼你模拟 DOM 或生命周期…… 当然 puppeteer 也可能被针对有时还不如简单请求,两说 |
6
yankebupt 2023-04-05 16:18:26 +08:00 1
不让贴 GPT 回答,不过我问了下,说 puppeteer 不光 headfull 模式,headless 模式也可以加 cache ,多开几个 page 就行,js 只读取一次就行,除非站点反爬抽风,把 js cache disable 了,不过那会影响用户浏览的......
不知真的假的 |
7
hxy100 2023-04-05 17:57:49 +08:00 1
无头浏览器其实是成本最低的做法,否则针对不同的网站,不管是 PyExecJS 还是正则匹配,你都需要去扒他的 JS 逻辑和算法,很麻烦,简单的网站还可以这种操作,复杂的、JS 代码经过混淆编译的,那基本就是噩梦。
|
8
luzihang 2023-04-06 09:17:45 +08:00
这不算反爬吧,直接正则获取 js 里的值就行
|