Ayahuasec 最近的时间轴更新
Ayahuasec

Ayahuasec

V2EX 第 368789 号会员,加入于 2018-12-07 15:17:58 +08:00
今日活跃度排名 18942
求推荐软件,用于方便的绘制详细的数据流图
问与答  •  Ayahuasec  •  294 天前  •  最后回复来自 Ayahuasec
4
讨论一下 AI 的安全问题
  •  1   
    OpenAI  •  Ayahuasec  •  2023-04-04 21:45:21 PM  •  最后回复来自 Ayahuasec
    14
    两端都有 IPv6 防火墙,如何点对点连接?
    问与答  •  Ayahuasec  •  2023-02-23 23:28:47 PM  •  最后回复来自 Ayahuasec
    5
    有刷了最新版 MIUI 开发版的老哥帮忙看一下 swap 设置吗
    问与答  •  Ayahuasec  •  2021-11-11 11:27:30 AM  •  最后回复来自 AoEiuV020
    1
    有没有什么 Chrome 插件能够自动保存浏览的网页
    Chrome  •  Ayahuasec  •  2021-08-28 11:40:10 AM  •  最后回复来自 fucku
    16
    怎么在微信里打开本地网页
    问与答  •  Ayahuasec  •  2020-08-18 19:33:37 PM  •  最后回复来自 Ayahuasec
    4
    Linux 有负载率没有 CPU 占用没有磁盘 IO 等待,怎么排查问题
    问与答  •  Ayahuasec  •  2020-06-25 01:21:08 AM  •  最后回复来自 vk42
    1
    Ayahuasec 最近回复了
    “研究生+要解决实际问题” 看到这两个条件,我感觉可以了解下 MatLab ?学校没买授权也不想掏钱买学生版的话,可以用开源的 Octave 平替。

    MatLab 的文档很全,学过 Python 的话上手也应该很快,而且有问题也可以问 AI 。比如如果需要数据支撑或者论证观点的时候,就可以问 AI 需要什么数学工具或方法,然后用 MatLab 实现,以及可以输出合理的图可以放进论文里之类的。感觉可能对 op 的主业会比较有帮助。
    92 天前
    回复了 wxd21020 创建的主题 NAS 配置小主机跑大模型
    我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
    92 天前
    回复了 857681664 创建的主题 旅行 2024 春节厦门游记
    以前听同学说厦门应该中秋去,中秋比较热闹,那边过节能过上一个月
    我记得是命令 nvidia-smi -pl 10 就能设定限制功耗在 10W ,可以按自己的卡调一调,但是这只是软件限制,实际跑起来还是有可能超过设定值。以前测试是可以略微降低一点点待机功耗,但是台式机的话好像意义不大,笔记本可以在独显闲置的时候挤出来点电池续航时间。
    4060ti 16G 已经能跑不少东西了

    预算再往下还有条 Tesla P100 16G 的野路子
    201 天前
    回复了 flypei 创建的主题 VPS 阿里云 ECS 2C2G 3M, 99/年,已入手
    本来下单以后还觉得挺便宜的,然后发现阿里云的 IPv6 还要额外开通,1Mbps 是 0.96 元/天。国外 VPS 基本上 IPv6 都直接送的,到阿里云这要额外收费了…
    224 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    @allmightbe #18 修一个上一个回复(#19 )的 bug ,看到你这张图我想起来了,BL=8 的时候列地址的低 3 位也是不用的,保持为 0 。列地址一般是 10 bits ,上面这个例子其实应该是{row[15:0], column[9:3], bank_addr[2:0], 6'h0},或者也可以说是{row[15:0], column[9:3], bank_addr[2:0], column[2:0], 3'h0}。
    224 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    @allmightbe #17 一个 column 对应的是多个 bits ,比如 x16 的颗粒是 16 bits ,如果一个控制器连的所有颗粒总计 DQ 是 64 位(比如一个 dimm ),就需要 4 个 x16 的颗粒,那这种情况下每个 column 地址其实是 8 bytes 。对应到按 1 byte 的字节的地址空间,其实是低 3 位不用。

    举个例子,假如说地址空间是 32 位,那 Row-Column-Bank 编址可能是{row[15:0], column[9:0], bank_addr[2:0], 3'h0},这样连续读写可以用到所有 Bank 。

    未对齐的访问一般在 Cache 端的控制器做,或者用 CPU 的异常中断做,Cache 到 DDR 一般只让对齐访问。
    230 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    @allmightbe

    关于缓存,我印象里每个 bank 是有一个 row buffer 的。

    一次性取 8 个字节,大概是因为 DIMM 的位宽是 64 bits 的吧(带 ECC 是 72 bits ,不过有效数据还是 64 bits ),但是实际上 burst length 对于 DDR4 的情况是常用 8 (因为好像从 DDR3 开始 prefetch 一般都是做的 8n ),也就是说一次连续的读写会涉及到 64 bytes 。如果要在一次读写中只让部分数据有效,一个是会用到 Data Mask 引脚,把部分数据位掩码掉;另一个是 burst chop ,让 burst length 变为 4 。但是如果都是短字节的随机读写,就会让 DDR 接口上一次读写操作中有大部分数据是浪费的。所以 CPU 里要做 Cache ,在需要的时候按 Page 为单位和 RAM 做数据交换,从而把内部比较随机的 RAM 读写变成相对连续的 DDR 读写。

    不过关于一次读写的数据长度这一点上,我理解这个还是要和具体的 DDR 控制器设计相关的,我见过的一个用到 DDR 的设计是一个 Memory Channel 只带 2 个颗粒,DQ 位宽 16 bits ,burst length 固定为 8 ,这样的话发出一个地址请求,就会读写 16 bytes 的数据,内存控制器的地址是按 0x10 对齐的,也就是地址的低 4 位只用于配合读写长度进行字节的提取,但是 DDR 控制器到内存颗粒上总是一次读写就是连续的 16 bytes 。
    231 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    DDR 控制器发出列地址以后,需要等待一段时间才能读写数据,在此期间可以多发几个地址,延迟时间到了以后连续读写。这样性能比较高。
    DDR 跨行访问要先把当前行关掉,再打开新的行,这个步骤会引入额外的延迟。(或者考虑用自动预充电)
    每个 Bank 是相对独立的,可以同时打开多个 Bank 的行。多个 Bank 只是共享了一个 DDR 的接口。
    实际设计为了提高随机读写性能,我见过的比较多的设计是按 Row-Column-Bank 去编址的。
    可以看一下 micron 的内存颗粒文档的时序图,我记得是比较全的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1019 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 22:01 · PVG 06:01 · LAX 15:01 · JFK 18:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.