V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 190 页 / 共 318 页
回复总数  6351
1 ... 186  187  188  189  190  191  192  193  194  195 ... 318  
@encro #138 另外,你所说的“通过 bloom filter 和站点域名来规划”跟文中所说的全局唯一 ID 连半毛钱关系都没有...不管是使用场景还是效果都完全不同。
@luren123 #136
@encro #138
不要硬杠,文章开头就提到了“在爬虫场景中,这条数据在进入数据库之前会进行数据清洗、校验、矫正、分析等多个流程,这期间有一定概率发生重试或设为异常等操作,也就是说在进入数据库之前它就需要有一个 ID 来标识它”,已经对场景进行了说明。这种东西也不存在仅限于爬虫场景可以使用而已,所以在一开始就限定场景其实是一种特别蠢的做法,你并不知道别人的其他场景会不会有类似需求可以用到。

对于一个需要监控、有着多个规范化操作且需要保证严格顺序性的流程来说,为了有个唯一的 ID 用来事后追溯,除了单点的发号器以外你没得选,没得选的核心点在于严格顺序性。如果你写爬虫没有遇到这种场景,那只能说明你的系统庞大程度、爬虫逻辑的复杂程度还没有到需要依靠工具帮你解决问题的情况。
另外,这个薄雾算法对序号的混淆特性主要体现在 ID 需要对外展示的情况下,如果不需要对外展示,那就单纯一个序号就完事了,并不影响使用。

---

举个比较极端、全面的例子:
某平台的反爬虫和风控非常恶心人,签名参数的加密算法每次都会变动、代码的混淆方式也每次都会变动,并且对方对 IP ( IP 质量、请求频率等)和设备(设备与 IP 的关联性、设备真实性、请求频率等)也有进行检测,整个流程是关联起来的,缺一不可。
这种情况下你写一个爬虫就需要有反混淆、提取加密算法、IP 分配、设备分配、IP 设备帐号三者绑定等多个模块,而这些模块都是部分通用的,你不会把他们全集成在一个爬虫程序里,而是分别提供服务。
那么问题来了,假设某一天你发现有某些数据发生了异常,你怎么查问题?没有全局唯一 ID 的情况下,即使有接入监控也很难查问题,查到吐都不一定能查出来是什么情况导致的;而在有全局唯一 ID 且所有模块都接入了监控的情况下,只需要查这一个 ID 就可以得到整个流程中的所有信息,排查起来会方便很多。

不要杠什么“这种情况不需要高性能的发号器”,你没有遇到不代表没有;
也不要杠什么“不会有这么多操作结合的情况”,很多模块是通用的,平台方有没有这么复杂并不影响爬虫方的复杂度;
更不要杠什么“人家都做了这么多限制你还爬,抓的就是你”,你并不知道人家是不在乎风险还是已经获得了授权,这跟你也没关系。

说白了,架构设计本身就是充满着妥协的,不结合实际场景来看没有任何意义。Snowflake 、MongoDB 的 ObjectID 这类的算法说白了也就是个时间戳、机器 ID 、序号、随机数之类的东西拼接起来而已,一样很简单粗暴,但这并不影响人家能在特定的场景下起到良好的效果。
2020-07-26 23:08:10 +08:00
回复了 leihongjiang 创建的主题 程序员 想学习 Python 有推荐教程的吗。
如果是写爬虫,编程语言本身对你来说并不太重要,用到哪学到哪就好了,后面慢慢地自然就会理解含义。如果是有编程基础的话,那更加没必要特意学一下 Python,语法都大同小异。
2020-07-26 23:01:50 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
@locoz #38 然后 roam 的引用相关功能都是支持搜索的,也就是说在写的时候可以:按下反斜杠 -> 选择引用方式 -> 直接搜索对应的内容 -> 选中后回车确定。非常方便。
2020-07-26 22:58:44 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
@locoz #38 哦不对搞错了,直接((block_id))是包含进句子,{{[[embed]]: ((block_id))}}是单独一个引用块。
2020-07-26 22:55:18 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
@ChristopherWu #32 Tiddlywiki 这种是文章级的粒度,基于文章级粒度的双向链接实质上跟你在写博客的时候加一个外链没有区别,只不过是多了个“被谁引用”的效果而已。

块级粒度和对应的卡片式笔记方式最好的地方在于:由于你在最开始记录的时候就是「一段话即为一个完整表述」,所以你可以在任意位置直接引用另一个主题下的某一段话,而不仅仅是一个链接到另一个主题的效果。

举个例子,上面是[[roam]]主题,下面这个是[[[[roam]]的优势]]主题:
roam 是一个很方便的工具,它的{{[[embed]]: ((上面的第二段话 block_id))}}而它的竟品{{[[embed]]: ((上面的第一段话 block_id))}}

直接重用之前整理好的描述,使你完全不需要重复描述,并且还能建立关联的关系。在写文章、写多个有关联性主题的概述之类的场景,这个效果可以说是杀手级的。
现在 roam 的竟品要么是没有按块级的粒度来搞,要么没有提供类似的块级操作功能,可以说是连抄都没有没抄到位...
2020-07-26 19:36:18 +08:00
回复了 ChristopherWu 创建的主题 程序员 Notion? Roam? OneNote?做笔记我用 Tiddlywiki
roam 和其他笔记工具最大的特点和优势不在于双向链接,而在于把内容粒度细化到了块级(段落级),这直接就导致了玩法的不同和效果的差别。如果仅仅是标题双向链接的话,其实跟一般的 wiki 是没啥区别的…
2020-07-25 11:11:52 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
@dyt5 #119 “企业文化”不一样,会导致同样的人做出来的东西也不一样。就像有些公司内部提个需求走流程都要走很久,有些公司集体确认一下没问题就直接加了。
2020-07-25 11:05:08 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
@amusier #111 第四点 EMUI 现在是走官方渠道完全搞不了,万能的某宝也只能解决老机型,hhhh 已经不是麻烦能形容的了,几乎就没法搞。
@amusier #114 iOS 越狱后也能搞这些,就是越狱这操作不像 ROOT 、Xposed 之类的方便而已。
2020-07-25 11:00:53 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
@dyt5 #107 功能上是各有千秋,像 EMUI 那个双指按压触发 OCR 的功能就很方便,但总体的用户体验上 MIUI 是碾压的...很多细节设计 EMUI 直接就没有,不是差一点或者好一点的那种区别了。
而且 MIUI 有个很关键的点,他们开发团队会做舆情监控、会快速解决用户提出的问题和建议,但 EMUI 的是直接过耳忘,甚至压根就不看。像前面我提的那个门禁卡录入应该允许用户直接记录卡 ID,本来也没当回事,结果过了一个多月突然发现可以直接记录卡 ID 了 https://i.v2ex.co/9kZ3y873.png

所以你要说 MIUI 小细节不到位,这一点是不存在的,小米是硬件方面细节不到位,比如边缝宽容易进灰之类的...
2020-07-25 09:50:25 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
推送广告方面推荐使用「通知滤盒」,自定义过滤+折叠很舒服,然后也能用来留证据啥的 hhh
2020-07-25 09:47:36 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
@iamverylovely #84 EMUI 的广告和现在 MIUI 在设置中打开那个总的关闭开关之后是一个量级,时不时推一条,很难被注意到。并且 EMUI 在一些固定位置上也会放点贴片广告。

但 EMUI 的落智推送(按你的定义算不上广告)无法被关闭且推送频繁,相比于 MIUI 的基本不吭声而言,是真的恶心。
2020-07-25 09:39:54 +08:00
回复了 Paranoid1119 创建的主题 Android 小米的 MIUI VS 华为的 EMUI
MIUI 完爆 EMUI 啊,还用比吗…用户体验都不是一个级别的东西。华为的“企业文化”就是“我为你好”,但这个“好”并不一定是你想要的,它也不会给你选择的余地。

前面写过一篇对比文你可以看看: https://mp.weixin.qq.com/s/ceCUnwnFCLSHP8-Tj4yWbA
还有这个知乎回答和评论区中我举例的事情: https://www.zhihu.com/answer/1245459698
2020-07-25 09:10:33 +08:00
回复了 janda 创建的主题 分享发现 分享一个小技巧、揭秘 v2 留言的 vx 串
emmm 小技巧、揭秘…太标题党了
@zhangyifei216 #4 会被很多公众号 PTSD 的人喷 https://i.v2ex.co/92IL9xOI.jpeg 然后一排 @站长,然后你号没了
纯推广内容要发到推广下的,赶紧改了吧
2020-07-23 22:03:44 +08:00
回复了 wszgrcy 创建的主题 求职 卑微前端,在线求职(ng)
@efaun #14 😂😂我也有点,拍照的时候会被摄影师说下巴收一点,然后现在看到镜头就习惯性低一点头。
2020-07-23 20:49:24 +08:00
回复了 wszgrcy 创建的主题 求职 卑微前端,在线求职(ng)
有一说一…头像确实应该搞一下…斑点问题还好,楼上有帮忙 P 的了。相对而言视角问题比较严重些,现在这张看着会感觉有点俯视,我一点开就看到两个鼻孔对着我😂😂😂
1 ... 186  187  188  189  190  191  192  193  194  195 ... 318  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   784 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 56ms · UTC 19:28 · PVG 03:28 · LAX 12:28 · JFK 15:28
Developed with CodeLauncher
♥ Do have faith in what you're doing.