lwch 最近的时间轴更新
lwch

lwch

V2EX 第 115633 号会员,加入于 2015-05-07 12:19:25 +08:00
无需量化,在树莓派上运行 LLaMA2 70B 模型
  •  2   
    分享创造  •  lwch  •  2023-10-21 09:02:57 AM  •  最后回复来自 lwch
    28
    分享一个新开发的 proxmox 监控数据 exporter
    分享创造  •  lwch  •  2022-08-31 15:52:43 PM  •  最后回复来自 lwch
    9
    主机管理工具 natpass v0.9.0 版本发布,新增 macos 远程桌面支持
    分享创造  •  lwch  •  2022-07-09 00:19:57 AM  •  最后回复来自 lwch
    8
    主机管理工具 natpass v0.8.2 版本发布,去除连接池,支持上万并发
    分享创造  •  lwch  •  2022-01-24 17:31:40 PM  •  最后回复来自 lwch
    2
    主机管理工具 natpass v0.8.0 版本发布,支持非 tls 加密连接
    分享创造  •  lwch  •  2022-01-09 13:16:13 PM  •  最后回复来自 goifly
    8
    natpass v0.7.2 版本发布,新增 Linux 远程桌面支持
    分享创造  •  lwch  •  2021-12-10 22:54:32 PM  •  最后回复来自 dianso
    3
    内网穿透工具 natpass v0.6.0 版本发布,新增远程桌面功能
    分享创造  •  lwch  •  2021-11-09 17:08:00 PM  •  最后回复来自 lwch
    33
    lwch 最近回复了
    @allegory 我用他来实现了一个小型的 llama 模型大约 1.5 亿参数量在 CPU 上训练速度还行
    @allegory libtorch 跟着 pytorch 的版本走的,现在已经 2.2.2 了
    2023-10-21 09:02:57 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数,每次加载参数速度很慢
    2023-10-20 23:25:40 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 只实现模型推理的话其实并不复杂,要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等,我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子,这还只是 pytorch 中的一部分,想要实现一个完整的框架一个人难以完成。
    2023-10-19 14:54:33 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 今天做了不少优化,目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ,但 CPU 并未全部跑满可能还有一定的优化空间
    2023-10-19 10:14:47 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 所以我上面也说了,单机的性能是有限的,想要提升整体性能只能靠堆集群来实现,目前为止这个项目还处于单机运行状态,至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词,因此我一开始就选用了 go 语言而不是其他的语言来进行开发,就 go 语言本身而言从单机版到集群版也更容易一些。

    另如果 10 台机器的集群计算性能可以达到 GPU 的一半,我觉得大部分的资本家也是可以接受的,毕竟总体成本下降了好几个数量级。
    2023-10-19 08:44:55 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 那再举个例子谷歌搜索核心代码也是 go 的,你觉得以他的体量计算量会很小吗,速度不是一样不慢的
    2023-10-18 20:13:15 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 再慢也能超过 python 不是吗
    2023-10-18 14:55:55 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 树莓派只是打个比方,你当然可以在云上申请几台机器来加快推理速度,这个项目的主要目标还是为了降低大模型的使用成本,使普通人也可以跑上 70B 模型
    2023-10-18 12:07:26 +08:00
    回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 用这 1.6T 内存在高并发情况下,可以并行处理更多的 batch
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5818 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:51 · PVG 09:51 · LAX 17:51 · JFK 20:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.