V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Azure99  ›  全部回复第 1 页 / 共 4 页
回复总数  67
1  2  3  4  
8 小时 20 分钟前
回复了 bankroft 创建的主题 NAS 躁动的心,想入手 emby/plex
一直用 jellyfin + nastool + jackett ,刮削从来不是问题
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@ljx626 算上造数据、实验、训练,大概几千吧。数据和实验是大头,如果只用开源数据集做 SFT 且数据量不大的话,花费很少
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@qW7bo2FbzbC0 个人感觉是因为对齐阶段,缺乏尝试->验证->回溯的数据(对于这种没有确定解题方法的问题,又好比 24 点,或者各类行测找规律的题),这有点像我们人类的思考方式,GPT 也只是有一些这种能力,但不多。
1 天前
回复了 jstony 创建的主题 Windows windows11 什么时候如丝般顺滑了?
只要配置拉到一个水平,windows 一直非常丝滑
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@Contextualist T4 * 2 ,不考虑并发的话 llama.cpp 会快不少。另外 HF 的 Zero GPU 也有免费 A100 40G 可以用了,可惜仅支持自家生态。
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@mightybruce 没太明白这个和 advICL 有什么关系
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@enderftt SFT 的 prompt 里没有 system prompt 的概念,内部 prompt 是下面这样的
A chat between a human and an artificial intelligence bot. The bot gives helpful, detailed, and polite answers to the human's questions.
|Human|: hello
|Bot|:
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@xiaohundun 可以理解成,对于一个指令,调用其他模型的输出作为标注输出。也就是让 GPT4 来标训练数据
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@enderftt 感谢反馈,下个版本会标注下这个 bad case 。另外如果回答不满意,可以点一下👎按钮,会收集的
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@NoDataNoBB
@mightybruce
@xiaohundun
有很多封装好的微调框架,LLaMA-Factory ,swift ,xtuner ,挑个顺手的就行了
1 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@didi0luc 模型知识截止到 2023.6 ,这时小米 su7 还没发布
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@BeijingBaby 这种没有固定解题步骤的问题是比较难的。需要模型在推理时有尝试+回溯的能力,目前比较欠缺。
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@openmynet openchat 确实非常不错。不过国外的预训练模型的中文能力,尤其是世界知识还是比较欠缺的。对于国内的场景,Qwen 和 Yi 作为基座也不错。
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@weijancc
@frankyuu
@airqj
主要分两个部分,第一个是训练数据。可以用开源的数据集(0 成本),或者选择自己标(个人不太现实,但可以蒸馏其他大模型),我为了质量是完全蒸馏的 GPT4 ,会贵一些,几十 K 大概几千吧。如果蒸馏 3.5 会便宜很多。

第二个是训练,如果做通用场景的对齐,lora 效果就非常不错,几十 K 数据的话,7b 单卡 A100 40G 跑一天就 ok 了,租卡不到一百块。全参训练门槛会高些,比如 4xA100 ,不过速度也会快。整体成本还可以
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@Seanfuck 可以看下 vLLM
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@monkeyk 暂时没有哦,主要是业余搞着玩
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@SGL 租的,国内有不少平台,A100 80G 贵些,40G 还是比较便宜的
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@openmynet 生成的内容长并不代表质量一定高(当然更长的内容可能更符合人类偏好),像这个示例里,问题本身就是一个逻辑陷阱,如果针对猜测的"隐喻"延申太多,我个人感觉反而是不好的。另外 openbuddy 貌似只公开了权重,没有公开数据。
2 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@renmu 预训练时通常会过滤色情内容的,但是不会过滤的那么全,模型依旧有这些能力。"未审查"版本一般是在指令精调的时候,过滤掉拒答样本,这样训练完的模型就会问什么答什么
4 天前
回复了 lstz 创建的主题 OpenAI 用贵的国产大模型 API 是否效果堪比 GPT4?
今日笑话 2:腾讯、字节、百度英伟达 A100 的存量都不超过 2000 枚。🤣"出处": https://new.qq.com/rain/a/20230404A0AO0G00
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   947 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 19:33 · PVG 03:33 · LAX 12:33 · JFK 15:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.