V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ipwx  ›  全部回复第 20 页 / 共 194 页
回复总数  3876
1 ... 16  17  18  19  20  21  22  23  24  25 ... 194  
2022-05-19 23:57:39 +08:00
回复了 zealboy 创建的主题 程序员 有什么值得捣鼓的机器学习/深度学习的项目吗
@c0xt30a 是也不是。不同板块的股票相关性本来就低,你再搞几十套算法怼上去,每个算法的买卖操作不一样,相关度就更低了。这样就能组出来一套可以降低抖动的投资组合。

当然 A 股不能做空所以没那么理想。能做空的市场,这么一搞,相关度就迅速下降了。
2022-05-19 17:03:54 +08:00
回复了 zealboy 创建的主题 程序员 有什么值得捣鼓的机器学习/深度学习的项目吗
@zealboy 顺便不提 AI ,有个事实供参考:

若有 N 个独立同分布的变量 x1...xN ,均值都是 mu ,标准差都是 σ。那么如果我每个变量只取 1/N ,并加起来:

y = (1/N)(x1+...+xN)

那么 y 的标准差就是 σ/sqrt(N)。
----

这个事实有啥用呢?很简单,如果你全仓单吊一支股票,那它一个回撤抖动可能大小是 σ。但如果你选了 N 支和它表现差不多的股票,收益期望都一样,那么它们加起来的收益期望和原来一支股票的收益期望仍然相同,但是一个抖动只会给你造成短暂的 σ/sqrt(N) 的损失。。。

当然无论怎么样,收益总数的期望是一致的。但是抖动从 σ 变为 σ/sqrt(N),相信你会好很多的,至少持仓过程的心理压力就不会那么大了。
----

所以我们需要 AI 。不然你怎么一个人自己配置 100 支股票呢?
2022-05-19 16:58:57 +08:00
回复了 zealboy 创建的主题 程序员 有什么值得捣鼓的机器学习/深度学习的项目吗
不过我个人是偏向于价值投资理念的 对于量化以及中短期交易不是很感兴趣
----

这个理念和楼主不关心 AI 其实有着同样核心的内核:相信自己(作为人)的智慧,觉得机器没啥大不了的。大概是一部分程序员的常见心态吧。

我就不一样,与其相信我的智慧、精力(市场上那么多公司哪有那么多时间一个个看)、毅力(一个大跌我可拿不住),我更相信机器。
2022-05-19 15:54:57 +08:00
回复了 hiugo 创建的主题 程序员 如何快速顺序生成一亿个数字
@jessun1990 顺便我的 Linux Mint 主机:

$ time seq 1 100000000 > /dev/null

real 0m0.544s
user 0m0.536s
sys 0m0.008s
2022-05-19 15:53:04 +08:00
回复了 Richard14 创建的主题 问与答 Numpy 对一串向量进行量化有什么简便写法吗
1)

import numpy as np
im = np.array([0,1,15,16])
np.asarray(im / 16, dtype=int) # array([0, 0, 0, 1])

2)
随便运算,最后取整。
2022-05-19 15:04:25 +08:00
回复了 hiugo 创建的主题 程序员 如何快速顺序生成一亿个数字
@jessun1990 是 mac 。看起来 Linux 做了优化,>/dev/null 不用过系统调用。mac 实打实系统调用花了 17 秒
1. 找一个巨大的语料库。
2. 用分词(比如 jieba )抽取词的 token 。
3. 然后直接统计。

----

但是……

这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。

改进方法:

1. 找一个巨大的语料库。
2. 用分词抽取 word token 。
3. 训练 word embedding model 。
4. 训练一个分类器,p(next word embedding | previous word embedding)

----

如果要增加效果,可以考虑

p(next word embedding | context)

而不是只给定上一个词语。相关的改进建议查询论文。
2022-05-19 11:37:56 +08:00
回复了 hiugo 创建的主题 程序员 如何快速顺序生成一亿个数字
❯ time seq 1 100000000 > /dev/null
seq 1 100000000 > /dev/null 15.53s user 0.02s system 99% cpu 15.553 total
@LeeReamond 一般 cmake 就行了。第三方库直接一起丢进来编译就是了。C++ 算法库一般都是模板,而模板库一般都是 header-only ,根本不难编译。pybind11 用 os 自带的就行,apt-get install pybind11-dev python3-dev 然后 cmake FindPackage 就可以了。
你这需求难度堪比造火箭。
举个常见的例子,男的失恋了去找兄弟,然后就是喝酒吹牛兜风玩游戏,基本目标是消磨时间;女的失恋找姐妹,会聊很多生活的经历和想法,讨论用什么心态对待,算是情感上的连接。
----

@Zerek 楼主加油。你看 53L 的言论「“失恋”这种词也是种软弱,就不应该出现在男性身上。。。」,就知道为啥你找不到可以聊的同性了。统计上,我国大环境如此,水做的男人不多的。

不过既然楼主的性格有点水做的,不如找找强势的大姐姐。或者干脆女装( doge
2022-05-14 17:15:08 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
上述操作必须用指针在那里魔法计算。。。不要用 STL 容器。不然速度还是提不上去
2022-05-14 17:14:05 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
比如,如果都是英文字母,不需要区分大小写,那你的符号表就只有 26 个字符。为了速度可以取 32 。

既然长度都在 1~5 之间,那你用三层 Trie tree 就能有效压缩深度。每一层是 1024 个格子,取格子只要位移操作不用乘法。相当于分层快速哈希,而且必然没有冲突了。
2022-05-14 17:11:39 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
Trie Tree 可能会快一点,但你要用 C++ 来极限优化,不然反而比 hash 更慢。
总之运算符重载在特定场景下好用,但是不能滥用。
@murmur 你这也太绝对了。科学计算的时候还是很希望面对“符号”计算而不用关心这个符号是什么类型的。Julia 的核心优势就是在写科学计算过程式不用关心类型,但编译时又能代入类型进行优化。。。。(对就是 C++ 模板的 easy 版。
1 ... 16  17  18  19  20  21  22  23  24  25 ... 194  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1044 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 19:11 · PVG 03:11 · LAX 12:11 · JFK 15:11
Developed with CodeLauncher
♥ Do have faith in what you're doing.