首页   注册   登录
 smyle 最近的时间轴更新

smyle

V2EX 第 367242 号会员,加入于 2018-12-02 03:51:30 +08:00
smyle 最近回复了
4 天前
回复了 wudiloveworld 创建的主题 宽带症候群 北京家用宽带选择
看你做什么了,游戏之类对延迟有要求的就联通。平时就刷网页,看视频,下载东西的话,我觉得长城宽带也 OK。以前也用过联通,就我的需求而言,差别不大(都只是 100M,不玩游戏,偶尔看视频,主要是网页和即时通讯以及迅雷)
我现在用一台联通公网路由器做中转,远程访问长宽下挂的服务器,速度还挺快
@locoz 这个理解,尽可能轻量、只关注需要的数据。但还有个疑问是,比如说死磕 flash,浏览器开发者是如何做到事先能考虑到这种情况的呢?
我的意思是,有没有可能调试的时候,不用猜测、抓包、逆向等等(这波操作很牛,但确实繁琐),直接顺着浏览器逻辑来做?例如:
1、都是从获取一个 html 页面开始,OK,解析这个 html,找到关键部分;
2、需要下载 js,那就下载;需要执行 js,那就执行;这里需要渲染,那就渲染;需要调用视频播放器,那就调用……
3、最后总能追根溯源抓到源头吧?

这种有没有可行性呢?大多数情况下,会不会比自己一遍遍测试、猜测来的快?
浏览器似乎“天然”就知道该怎么处理这些加密信息,而爬虫开发者还要一遍遍地抓包、逆向、测试
这是为什么呢?
我就奇怪这些各种加密,在浏览器里就能顺利解析出来。做个爬虫为什么就那么费劲呢。。。
所以我能不能理解成: 由开发浏览器的人去写爬虫应该是信手拈来?当然,浏览器开发似乎并不简单。。。。
@crab 主要是我发现登录同一个页面后,第一个请求开始可能会带 cookies,但后续自动下载图片等请求可能就是没有 cookie 的了,但就是不清楚浏览器根据什么来判断某个请求要不要带 cookie

当然,这只是不明白的地方之一,看样子还是前端知识太匮乏了
@AX5N 还想确认一点:是不是所有的 js 调用,追根溯源都来自 html (/css?) 里的某个关键部分?比如点击按钮的 html 属性里有一个调用某 js 函数的 method ——也许不是这么做,我就是猜一个可能的例子
还是说连这些通知浏览器发起调用的入口都是完全在后台,前端看不见的?
@AX5N 是倒是,都是人开发的,浏览器能做到的,写爬虫的人必然也能做。就看投入产出值不值得了
@AX5N 比较接近这个意思了
你的意思是说:
所有的内容包括 username 等,某些网站也许不写在 html 里(或者 html 里写一个助记的名字,但最终发送的完全不一样),而是鼠标点击提交后,浏览器后台计算、生成再发送吗?
我认为浏览器本质上和爬虫没什么区别,都是数据收发、解析、存储罢了,只不过浏览器需要集合很多工具一起工作
@flight2006 至于我的问题,你可以理解为,我就是一个浏览器,我怎么根据服务器返回的数据,得知下一步发送什么内容?
例如:使用者在网页上填了用户名 abc,OK 了,发送。那我发送表达的时候,用户名的 key 名应该写什么?是 user、username、user_name、name 还是 id ?这个网站也许叫 user,另一个网站也许叫 username
这显然是浏览器通过解析网页内容得到的啊

PS:就用户名、密码而言,我看了下似乎在 html 用户名对应属性里,有一个字段似乎就是要发送的 key。但我不确定是不是 100%都这样
不知道怎么在顶层进行补充回复……

插楼补充下吧:
确实如一些筒子所说,有更好的工具 webdriver、selenium 等
不过这个提问的目的倒不是想解决实际问题,我主要就是想了解浏览器是怎么做的,可以理解为纯粹是好奇而已
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2121 人在线   最高记录 4385   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 9ms · UTC 00:22 · PVG 08:22 · LAX 17:22 · JFK 20:22
♥ Do have faith in what you're doing.
沪ICP备16043287号-1