V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 30 页 / 共 191 页
回复总数  3808
1 ... 26  27  28  29  30  31  32  33  34  35 ... 191  
68 天前
回复了 ky1e 创建的主题 硬件 我想问跑 Python 是选 9950x 还是 285K?
啊?赛扬都可以跑啊,你究竟问的是什么?
68 天前
回复了 ovie 创建的主题 程序员 以前刚入门遇到的几个奇怪又简单的坑
好像都是常识?
c:\Users\用户名\AppData\Local\Microsoft\Edge\User Data\Default\History
c:\Users\用户名\AppData\Local\Google\Chrome\User Data\Default\History
同用户权限,谁都能读
69 天前
回复了 sddw 创建的主题 问与答 浏览器记录求指点,求帮助
c:\Users\用户名\AppData\Local\Microsoft\Edge\User Data\Default\History
这是个 sqlite 文件,里面 urls 表就是你访问过的历史记录,不过如果你的 edge 开了清理历史记录,这里也是没有的

不过这是最终途径,如果只是想防止意外关闭丢失,可以装个能管理 session 的扩展
都这么多年了,还问这个问题?
都这么多年了,一直只是告诫大家不要信,却从来没去查过泄漏源头……
适用场景?
@ariza #19
马六甲王朝首位君主就是郑和扶植的,脱离了古泰国(暹罗?)统治独立建国,纪念郑和就很正常了
大马算相对友好的,华裔很多;那在暹罗眼中呢?

下西洋后,明清很多华人知道了解了东南亚,不少向海外拓展并定居,这些人其中不少到当地,凭借技术和资金,占据社会中上层,二战前后,华人占据社会中上层比例,东南亚比其他地区高出不少,这对当地人来说,一个外来族群维持特定风俗和语言,它始终就是“外人”,尤其外人成为“主人”时,就更难受了
70 天前
回复了 dawnzhu 创建的主题 程序员 Python 中 super 用法
语法没有错误,意义就要看应该放在哪一行
国产不太热门的种子,超过两周,就要靠迅雷了,仅靠 bt 软件非常难下
70 天前
回复了 ota 创建的主题 Python 求 Python 初学者书籍推荐
cookbook
70 天前
回复了 jerrypp 创建的主题 生活 车贷没谈拢,狗销售给我退订金了
年化 9 是怎么算出来的?
70 天前
回复了 Fdyo 创建的主题 微软 Microsoft Copilot 已经支持中国
copilot 还会反过来问我问题,真・聊天?
@Mystery0 #31
不是这个意思
例如三个用户都请求相同的 A 页面(同一个课程表什么的),但在服务器方看来,就是贵司一个 ip 对 A 请求了三次;所以这三个 A 的请求,最好能减少到一次,另两个以缓存返回给用户
@Mystery0 #29
这样说就比较明显了,要么就是对方反爬,要么就是对方机器也抗不住了

整体看下来,你们不是一个主动爬虫,就是不会游走爬取“未知”的内容,更像是个数据代理,把客户请求及爬取返回内容优化?
如果内容有大量重复,建议按规则做缓存,减少爬取次数
当然,缓存要准确,不然就相当于你们“制造”了错误数据,信用断崖下降了;而且缓存的内容涉及隐私的话,还要凭良心“加密”才缓存
“大量”是个虚词
先说有没有成功的,还是全部都出错
如果并非全部出错,成功的数量也不少,不是零零星星几个的话,代码应该没问题,更多是链路中间的问题

现在的 web 服务器,没有反爬的话,都不像话
你这里写的都是些很基础的爬虫知识,也不晓得你有没有做高级抗反爬
现在很多都是 cdn 反爬,例如 cf 的五秒盾,很难破,基本需要降频,高频就需要不断变换 ip ,另外还有客户端生成 token 这些,都需要让客户端抗指纹

这里还有一个重点你没说,既然是需要登录,是有大量帐号么?还是帐号都是用户自己的?
如果都是贵司提供,不断复用,被风控那基本都是秒级的事,能爬几年真是不可思议
@HeyCaptainJack #9
参考力拓案
1 ... 26  27  28  29  30  31  32  33  34  35 ... 191  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2971 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 59ms · UTC 07:49 · PVG 15:49 · LAX 23:49 · JFK 02:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.