V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lrjia  ›  全部回复第 1 页 / 共 1 页
回复总数  11
先 hash ,按照 hash 前缀分块成多个文件,使分块后单块的大小可以放入内存。再对每块使用 hash 表去重。最后合并多个文件,用归并排序的做法。这中间应该都是文件的顺序读写。
可以把 name 分组,比如先把两个文件中所有 a 开头的行读入内存比较,然后再比较 b 、c 。分组粒度大小按照内存大小来。
ac 自动机 + trie 。记 ac 自动机匹配到的关键字个数为 n ,最终匹配到的规则数为 m 。复杂度最差应该是 O(min(2^n, 10w * n)),一般情况应该是 O(nm) https://pastebin.ubuntu.com/p/JbcMYQqHfp/
@print1024 #15 不用循环查找的,做一个倒排索引就行了
2023-10-13 20:20:42 +08:00
回复了 fanym 创建的主题 问与答 强人工智能的实现代码量估计只有 0.65952MB?
要区分两个概念,DNA 中的信息量算是强人工智能的“代码”(.py 文件),而不是完整模型(包括训练完成之后的参数),后者的信息量要大很多。
2023-06-13 13:09:53 +08:00
回复了 yedaxia 创建的主题 分享发现 似乎没有办法阻止 chatGPT 合并句子
尝试加入序号,以及保留原文,尝试了几次没有出现合并。

prompt:

你将担任一名台词翻译家,我将以字典的形式提供给你需要翻译的内容。

翻译规则:目标语言是英文,请记住每个句子作为一个独立句子翻译,请分别翻译它们,不要试图合并句子内容来翻译,即便为了语句通顺也不要这样做,翻译后的句子个数必须和输入的句子个数严格完全一致。

输出规则: 以字典的形式返回翻译结果,并携带原文。

输入输出示例如下:

输入示例:
1. 需要翻译的句子

输出示例:
{
"1": {
"chinese": "需要翻译的句子",
"english": "Sentences that need to be translated"
}
}

下面请翻译如下句子:
1. "我是在互联网行业工作了八年的 u i 设计师大双"
2. "嗯,跟大家简单介绍一下我自己"
3. "呃,我当年之所以选择做 u i 设计师"
4. "主要是想进入互联网这个行业"
5. "因为在当时互联网"
6. "非常的热门"
7. "实现自己的梦想也好"
2022-11-19 01:13:50 +08:00
回复了 kongkongye 创建的主题 奇思妙想 有个任意网页弹窗搜索的 idea,但好像不大可行?
如果把搜索的范围局限在本地的历史记录里,只搜索之前打开过的网页,技术上应该没问题
2022-09-12 00:22:51 +08:00
回复了 wdc63 创建的主题 程序员 由两个整数生成一个独特的整数
直接用位运算,可能还会更快一些 ((int64)a << 32) & (int64)b
2022-02-11 20:29:35 +08:00
回复了 williamjing 创建的主题 算法 算法问题,大神进!
从信息论的角度估算一下,如果认为卡号在 10^16 次方范围内随机分布需要空间大约为 2500MB
$log_2((10^{16})^{4 * 10 ^ 8})= 21260339807 \ bit = 2534MB$
2020-09-23 19:20:06 +08:00
回复了 mashaofeixxx 创建的主题 推广 NUC 黑果套餐 国庆专车 福利帖
分母 + 1
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5747 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 01:51 · PVG 09:51 · LAX 17:51 · JFK 20:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.