V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  aec4d  ›  全部回复第 6 页 / 共 28 页
回复总数  552
1 ... 2  3  4  5  6  7  8  9  10  11 ... 28  
2020-11-10 18:11:08 +08:00
回复了 sl19981007 创建的主题 程序员 大文本按行去重(2G 左右文件)有什么好的解决方案吗?
瓶颈是磁盘 IO, 针对选一个 hash https://github.com/rust-lang/hashbrown,按行读取,如果 hash 值已存在则跳过,猜测十秒能完成吧
2020-11-03 14:13:03 +08:00
回复了 wsgzao 创建的主题 程序员 Grafana Loki 开源日志聚合系统代替 ELK 或 EFK
@joesonw 时序数据库当不了 kv, 容纳不了高纬数据,每个需要过滤的信息都放到 meta 里面是不可能的。https://prometheus.io/docs/practices/naming/#labels
2020-11-03 13:55:40 +08:00
回复了 wsgzao 创建的主题 程序员 Grafana Loki 开源日志聚合系统代替 ELK 或 EFK
大多数查询只关注一定时间范围和一些简单的参数(如:host 、service 等)
以上假设是完全错误的,作为一个查询平台,直接限制查询能力,然后宣称各种好处站不住脚
比如日志里面记录了订单号, 需要使用订单号查询全部相关日志
2020-10-19 12:40:30 +08:00
回复了 nutting 创建的主题 问与答 图书馆是不是个鸡肋?
深圳几乎所有图书馆需要提前排队,开馆十分钟座位都没了,然后市场出现了一堆付费自习室。图书馆很大的作用是给人自习的,藏书可能算附加功能
2020-10-10 12:29:12 +08:00
回复了 hooopo 创建的主题 问与答 如何 10 分钟内插入 13 亿条记录?
@hooopo 当然不能
2020-10-10 12:22:33 +08:00
回复了 hooopo 创建的主题 问与答 如何 10 分钟内插入 13 亿条记录?
插进去了查询也是个问题....... 我选择用 clickhouse
第一步,从百度云上下载下来,即使是超级 vip,每天下载也是限制流量的,15T 不知道要下载多久
处理五亿条 email, 匹配 400 万个名字
咋一看 5 * 10^8 * 4 * 10^6 次匹配,但是这个地方 email 和 name 都很短
400 万名字,大概就 30M, 把它存成 set
把每一个 email,拆分,比如 abcd 拆分成 a,b,c,d,ab,bc,cd,abc,bcd,abcd, 去在 set 里面匹配,存在则表示 email 有效
set.contains 查询效率是 O(1) , 并发查询,记每次 contains 消耗 10ns
假设平均一个 email 拆分成 20 个,计算一下,处理五亿记录只需要 100s
写了一个试了一下,耗时 11 分钟,还有很大优化空间
https://play.rust-lang.org/?version=stable&mode=debug&edition=2018&gist=7939811c4c2d417496593d760fbdb996
很炫酷,个人能业务独立完成很励志了👍
2020-07-23 09:43:46 +08:00
回复了 lynn0977 创建的主题 程序员 推酷将在月底关闭
可惜了,几年前经常用这个产品。虽然有人说采集侵权,但是这个网站有用。只是这个网站使用的时候没有任何广告,肯定没有什么盈利,能坚持这么久真的不容易
2020-07-21 12:35:10 +08:00
回复了 sneezry 创建的主题 问与答 有没有现成的工具可以把字幕文件转换成相应的音频
调 tts api 应该 50 行代码能够解决
如果用你这个思路,不需要编程也可以,使用 pdfonline 的在线服务转换成 word,使用 deepl 的翻译服务翻译 word,在使用 word 转 pdf 服务转换回来

@kingba 另外问一下,哪个 PDF 阅读器能比较好的支持双页模式
2020-07-18 13:32:24 +08:00
回复了 Ansen 创建的主题 问与答 求推荐宝宝用的驱蚊产品
https://zhuanlan.zhihu.com/p/27688505 最靠谱的当然还是蚊帐
2020-07-16 11:44:49 +08:00
回复了 iseki 创建的主题 问与答 为什么云服务商的带宽超过 5M 后单价翻倍?
买 5M 以下带宽的基本都是轻度用户,平时跑不满,所以可以轻松超售,买以上的大多数能跑满,无法超售,所以就翻倍了
2020-07-14 12:01:39 +08:00
回复了 BryceBu 创建的主题 Python [求助] Python 读取电子发票 PDF 文件数据缺失
先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片
接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本
本来处理的时候直接使用音频就可以了,上传整个视频是下下策。再加上上传的文件很可能是 mp4 格式,可以考虑 js 解析 mp4 文件得到音频流(纯 js 或者 webassembly),再组成文件。这样只上传音频就可以了。
如果能这样优化,使用体验应该会好很多
https://fed.taobao.org/blog/taofed/do71ct/web-player-h265/
符合单调递增特性?用随机数替代了取时间函数就声称 587 倍性能。而且这类东东可能设计考虑根本不是性能问题,天天就想搞个大新闻
2020-06-25 11:01:26 +08:00
回复了 v2byy 创建的主题 YouTube youtube 广告真是丧心病狂了
@wyfyw 人民币,开印度区的. 我随便上了个车,目前用了两个月,没有任何问题
2020-06-25 09:36:32 +08:00
回复了 v2byy 创建的主题 YouTube youtube 广告真是丧心病狂了
在 tg 上组团开个会员,一年才 50 块
1.005^365 年化百分之六百,谁信谁傻 X....
1 ... 2  3  4  5  6  7  8  9  10  11 ... 28  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5173 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 09:30 · PVG 17:30 · LAX 02:30 · JFK 05:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.