V2EX › smalltong02 的所有回复 › 第 1 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4

❮

❯

13 天前

回复了 pizone 创建的主题 › Google › google 的 gemini-2.0-flash-thinking 这个推理模型是不让用了吗

@pizone

好像 API 不免费了，在这里可以查到价格： https://groq.com/pricing/

13 天前

回复了 pizone 创建的主题 › Google › google 的 gemini-2.0-flash-thinking 这个推理模型是不让用了吗

Groq 上部署了蒸馏过的 r1 70B 模型，速度超级超级快！也支持免费的 API 调用，可以试试。https://groq.com/

13 天前

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@Aka114514

我已经改了一版捕获摄像头图像帧的方法来处理视频流，这样就没有快门声音了，就是上传发布还需要点时间。你是在国内还是香港使用？可以用 gemini 2.0 进行实时对话吗，我只在加拿大使用过，不知道其它地区使用效果怎么样。

14 天前

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@boshok

为啥呢，小哥哥。

14 天前

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

@Aka114514

是的，其实我是调用了 takepicture 功能获取的图像数据，这样省了转换的编码，其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复，好像有些国家或地区，在调用拍照的时候必须开启快门声音，为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。

14 天前

回复了 smalltong02 创建的主题 › 程序员 › 我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

请问大家试用过之后有什么反馈吗？

我提供自己的一个测试案例，我复现过 Google 演示中一个非常厉害的功能，我在桌子上放了一个 PC 的头戴式耳机，然后在提问过程中，手机摄像头移动时扫到过这个耳机，在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下，我询问是否有看到我的耳机在什么地方，Gemini 2.0 回答耳机在桌子上。

239 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@wwvvance
我使用我自己的开源项目支持的 Qwen 函数调用： https://github.com/smalltong02/keras-llm-robot

239 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@wwvvance

对于原生支持 Function Call 的模型，比如 OpenAI ，Gemini 和 Kimi 等，我都使用它们提供的接口来进行函数调用。对于不支持函数调用的模型，我使用预置的提示词技术来实现的函数调用功能。Baidu 和 Qwen 的模型原生是支持这个功能的，但是因为需要安装其它的库有点冲突，所以暂时把它们当成不支持来对待的。

243 天前

回复了 panlatent 创建的主题 › 分享创造 › 来推荐推荐自己的开源项目和经验吧

[Keras-llm-robot]( https://github.com/smalltong02/keras-llm-robot) 是一个基于 Langchain 的大语言模型项目，支持各种外部工具的调用，比较偏向于模型的 C 端落地项目，工具包括：代码解释器，知识库，搜索引擎，函数调用和工具箱，可惜同类产品太多，一直不火。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@kneo

不知道您的测试主要关注哪方面，方便共享吗？我也可以合并到我的测试集中，并在本机上尝试一下。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@kenvix

您可以再尝试调整一下 Prompt ，看看效果是否会好一些。实在不行就整理数据并做微调吧。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@mightybruce

您要自己测试的话，需要在 Google Cloud Platform 上注册自己的账号，并且生成 OAuth 2.0 的凭证，下载 Json 格式的 Token 之后再导入到 WebUI 中就可以使用了。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@crackidz

是的，毕竟各家的大模型，训练数据还是不一样的，训练的侧重点也有区别。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@Znemo

可能您在测试的时候，侧重于逻辑推理和语言生成方面。我的测试更注重的是和各种工具配合使用，测试方向不太一样就会有不一样的效果。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@yankebupt

条件有限，手上只有一块 4090 ，70B 的跑起来太慢啦。速度快是因为使用了 2 倍的播放速度，Youtube 上视频太长太拖拉就没人看啦。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@ogli324

好的，下次整起来。

248 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

@freshgoose
测试使用的是我自己的开源项目： https://github.com/smalltong02/keras-llm-robot

272 天前

回复了 teli 创建的主题 › 程序员 › 瞎扯大模型，文心一言和 kimi，应该押注哪一个？

我蛮喜欢 Qwen 和 YI 模型的，它们为开源社区做出了很大贡献。

274 天前

回复了 fushall 创建的主题 › Local LLM › 请教各位，开源的 AI 模型需要什么样配置的机器？比如图像类啊大语言模型啊语音类啊都想玩玩

如果你想自己研究的话，还是建议要搞一块 4090 。这样 34B-4bit(GPTQ)，13B-8bit(GPTQ)和 7B-16bit ，都可以无压力的使用 GPU 加载并推理。如果想玩更大的模型，比如 70B 的模型，那么建议把内存也升到至少 64G 。这样可以使用 CPU 和内存加载 70B-4bit 量化的 GGUF 格式。

此外给你推荐一下我的开源项目，比较符合你的需求，这一个项目支持很多的本地和在线模型，少量图像模型和语音模型：
图像模型支持：OpenDalleV1.1 ，ProteusV0.2 ，SDXL-Lightning ，GhostXL 等
音乐模型支持：facebook musicgen 系列
语音输入输出支持：whisper ，OpenAI 和 Azure 在线语音
https://github.com/smalltong02/keras-llm-robot

如果你想使用知名的开源项目，那么我推荐
LM Studio - 安装简单，可以只使用 CPU+内存做推理。缺点是只支持 GGUF 格式。
Ollama - 同上，缺点在多一个没有漂亮的 GUI 。
text-generation-webui - 这是最知名的项目，几乎所有格式都支持。

1 2 3 4

❮

❯