现在初步选题是一个基于 MediaPipe 的动作纠正与健康管理平台,目前想到的核心功能就是
利用摄像头去检测用户各关节间的角度,然后与标准的动作进行比对,通过语音播报的方式来纠正用户的动作
通过 RAG 接入一些文档、资料等来强化 AI 在这方面的知识储备
仿照现在流行的 Agent 记忆管理方式去建立一个用户的个人健康状态、运动习惯方面的记忆系统,建立符合用户自身状态的一个 AI 问答系统
目前主要的问题就是,在用 AI 做了一个小的 demo 之后,发现实际的识别效果并不好,很难精准的与参考视频里面的动作相匹配,而且不管我做的动作怎么样,播报的声音都会一直响,提示我某某部位再弯一点、腿没有伸直之类
请问各位老哥在这方面有什么好的技术方案吗(比如优化检测效果或者是播报效果方面的)?
或者说这个项目本身就比较复杂,不适合小团队去做的话,还有什么其他好的项目想法吗?
谢谢各位的热心解答!
1
sentinelK 11 天前
1 、你的解决方案是什么?你都不聊你的技术方案是什么,怎么让别人给你优化?难道伸手党直接要成熟方案?
2 、你的标准姿势数据是什么?是视频?还是实际骨架数据?有没有做数据对齐?还是给 AI 扔一堆脏数据当许愿池? 3 、你如何评估用户的“习惯”、与“自身状态”,并且如何持久化?不持久化和谈记忆? |
2
Mocus 11 天前
嘶……你说的这玩意我三年前本科互联网+做过(我本科毕业项目做的还是这个……),当时用的还是中间商中转的 ChatGPT3.5 ,连 DeepSeek 都还没出
识别效果不好,那只能说明你关节检测参数没调好 一直响的话那你,就得设置播报间隔,规定它第一次响后多少 s 后,如果状态没变化就不象应 小团队完全可以做,当年一个哥们负责调整 MediaPipe 参数,我负责做服务器的 RAG 和移植到 Android 上(写 Kotlin ),还有一个人做 PPT 与老师协调,这没问题的 如果非要说的话,这玩意豆包图片识别一把梭,调教下应该也 OK 吧😂当年的构想是自己训练个 CLIP 用,但忙着毕业,手头上也没有很好的训练集,只能作罢 |
4
WilliamColton OP @sentinelK #1
谢谢老哥您提出的这些问题,确实是我上面没有补充这些有关的详细信息,下面是对您问题的一些回答。 1. 目前设想中的解决方案比较单纯,比方说检测一个手部动作是否标准,就是通过 MediaPipe 识别出躯干和手臂的夹角,然后对比标准视频中的夹角,如果相差超过一定值(比如说相差 15 度),就语音提示用户“请将左臂放低”。 2. 标准姿势数据原本打算事先录制相应视频, 但是您提出问题之后我调研了一下,发现使用事先准备的骨骼数据会更好一些,同时用 DTW 算法去做一个对齐。 3. 这方面我们打算参考 openclaw 的记忆机制,分成短期记忆和长期记忆,通过多个 md 文件记录下来持久化,然后在用户和 ai 交流时自动将用户喜好写入记忆,以及在每次锻炼结束时自动总结运动情况(比如说今天的运动效果如何,和标准动作差距在哪些地方)然后写入记忆。 |