V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  LeeReamond  ›  全部回复第 70 页 / 共 85 页
回复总数  1688
1 ... 66  67  68  69  70  71  72  73  74  75 ... 85  
2021-04-13 16:54:06 +08:00
回复了 dzdh 创建的主题 SSL API 接口已经有 HTTPS 的前提下,为什么还需要签名机制?
@akira 显然不对,tcp 只保证连接可靠,不保证数据可靠,单纯 http 肯定是有缺陷的,居然还有两个人点赞
2021-04-13 03:17:32 +08:00
回复了 rikka 创建的主题 问与答 要在几千台机器上部署穿透程序, frp or nps?
@rikka 你这个理论不对的,所谓我把枪指着你的脑袋,只要我没开枪你凭什么说我威胁你,强词夺理啊
我倒是十分想知道你们靠人工管理怎么扩展到几百台虚拟机的业务的。。
2021-04-07 04:35:39 +08:00
回复了 skies457 创建的主题 生活 飞利浦电动牙刷的质量实在是太差了.....
小米用户表示一年使用无尿点。。电动牙刷我记得 b 站有专业横评视频的,我当初只是选择了个自己能接受的价格的
2021-04-07 04:28:09 +08:00
回复了 YEZHI 创建的主题 问与答 求助:想入 IT 是否该放弃跨专业考研去参加机构培训
不用焦虑,你这都是年轻人共通焦虑,除了极少数人以外大家都这样,跟专业没关系。

看你写这么多,关于专业问题稍微提一下。计算机平均工资高,想跨考正常,但是没有万金油,你提这两条路都很难走。计算机平均工资高是因为一线大厂在互联网风口,代表着吸收现金流的能力,手里有热钱,大厂的用工选择,其一你学历不够很难进圈子,其二真正做事情也得有做事情相应的水准。你现在转行,不管走哪条路,都是三分之二残废,首先第一学历不够高,其次就算你之后学习很努力,计算机底层和应用层的东西很大程度上是分离的,你未来几年里无论怎样很难兼顾双方。

建议放低需求,别太焦虑,个人发展要看个人奋斗,也要看机遇的
@delpo 确实,很合理,所以意思是面向连接还是独立的,只不过多进程公用一个端口地址
@delpo 感谢,默认 socket 都提示不让重复绑定,没写过类似的应用。单进程内 io 复用我觉得挺好理解的,多进程间绑定的话流不就乱了么,不知道数据的哪部分叫谁取走了。
@cubecube 我点的赞,我又不明白,看一楼回复还说你可以抓包验证,就以为是正确答案了。不过现在说来,似乎抓发出的包也不能分析路由路线。。
@delpo 所以如果我没理解错的话,你的意思是断开连接后系统资源并不立即释放,默认设置要一分钟以后才能释放?另外 timewait 的状态下端口可以绑定新的 socket,这个我觉得也很矛盾
@toaruScar 感谢回复,另外想到一个问题是,tcp 要四次分手,可靠地注销掉双方机器上开辟出的资源,那如果一方完全没有回复,发出去的包全都石沉大海了,也就没办法四次分手,这种情况下另一方会直接释放资源吗,这是否意味着不可靠
@TongNianShanHe 确实,大部分时候作为开发者都是不希望自己数据被爬取的,写博客之类的当然随便,商业应用通常贵在数据
@alect nat 模式下母鸡没法访问小鸡吧?
@Dreax 看起来很吊,然而都是国内用户,他这个没意义啊
@3dwelcome 隐藏浏览器怎么理解,与无头有何不同?百度没什么有效信息
@pursuer 因为发在 py 专区,py 似乎是没有标准库实现,要跨进程调用的话似乎就不那么优雅了
@renmu123 不太容易实现,打开 A 页面的同时需要根据鉴定是否为爬虫,决定是否返回正确信息,此时 js 脚本刚刚加载。想实现只能保留 B 页面执行的结果,并让这个结果不随页面刷新改动,可能整个网站都要用 ajax 异步加载的方式才能做,成本太高了。
@jim9606 简单查了一下 pow,感觉是个挺有意思的机制。不过似乎不太好实现,一个简单的方法是后端找一个随机数,生成 hash,告诉前端 hash 的结果和随机数大概的生成范围,让前端用穷举法算出原始数值。这种实现有两个问题,一个是前端算力不同,不同用户访问同一个网页可能有的人 0.5 秒就算完了,有的人 5 秒钟也算不完,比较影响体验。

再一个是这种没法在单次连接里验证,需要发起两次连接。后端需要处理多连接状态同步的问题,其实也提高了后端成本,感觉不是很划算。不过应该是确实能有效提高爬虫成本,是一个有意思的思路
@opengps
@ClericPy 理论上确实是想实现“让别人发现我正在提供服务”这个功能。比如设计一个简单的使用场景,在一个多进程基于 tcp 的通信中,我现在有一个固定的中心服务器,比如绑定到 center.service.com:443,我想实现的效果是每个服务器,即使在不同的机器中,只需要运行 server = center.connect()就可以告知目前在线的所有人连接我这个服务的方式。

理论上几种做法,一种是由于大家都和 center 有连接,所有流量都经由 center 代理,这种在多节点通信情况下效率太低,不作考虑。另一种是由服务端上线时自己设定好,比如 server = center.connect(my_ip='192.168.0.100'),然后绑定服务到这个 IP,这个感觉又太麻烦了,理想的情况下就是 server 不用进行任何设置直接启动,然后自动绑定 0.0.0.0 的某个端口,并且自动获取到其他人访问哪个 IP 可以经由 0.0.0.0 转接。

可能说的不太清楚,需求比较怪,两位见谅。
2021-04-04 00:08:18 +08:00
回复了 imn1 创建的主题 Python 现在爬虫对付脚本构造的网页还有什么方法,除了 selenium
@ysmood 学到了一个好用的反爬方法,感谢
1 ... 66  67  68  69  70  71  72  73  74  75 ... 85  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2241 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 15:49 · PVG 23:49 · LAX 08:49 · JFK 11:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.