本人研二,专业深度学习音频领域研发,去年在校做了一个开源小项目,是关于音频特征提取和分析的,可以针对音频领域的各种业务做原型开发,目前规划的音频领域的研究任务方向:
如果做成 ChatGPT 插件模型哪些会更受欢迎?这些方向应用场景和需求怎么样?
欢迎大家参与论讨或给出新的方向建议!!! 后续按大家讨论建议汇总, 确认几个研究方向后按优先级逐步开发实现并开源贡献。
1
chatWell1 2023-04-03 13:44:44 +08:00
和弦估算吧,我觉得这个应用价值广泛,和 chat 结合后,传音频就能出来和弦进行数据吗?
|
3
CMLab 2023-04-03 14:00:33 +08:00
给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来
|
4
dark009 2023-04-03 14:08:35 +08:00
我感觉目前的音轨分离方案在处理复杂音乐时效果还不够理想,希望能够有更加准确的算法和模型来解决这个问题
|
5
xbcslzy 2023-04-03 14:11:29 +08:00
目测新一波炼丹需求要来了
|
6
829939 OP @dark009 音轨分离一般常用的做法是频域掩码,最简单的就是二值化掩码,有很多这块定向算法的研究,典型的如 NMF 算法相关的有很多种,很多也取得不错的效果,但效果好的还是使用深度学习训练频域掩码,也是这些年音频领域研究的热点之一。
|
11
ManxCat 2023-04-03 14:19:02 +08:00
音轨分离和和弦估算最受欢迎吧 但是成年人不做选择,我全要
|
15
collinmehle 2023-04-03 14:32:09 +08:00
@CMLab 调音器只针对了部分乐器领域 不够通用
|
16
Aloento 2023-04-03 14:34:22 +08:00
玩音乐的表示你这个出来了记得踢我,简直不要太棒
|
17
829939 OP @chatWell1 音频指纹确实是不错的想法。这个库可以帮助你实现。两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
|
18
CMLab 2023-04-03 14:36:38 +08:00
@collinmehle 音轨分离这些可能对老师或 B 端这样的用户有用,调音器单说吉他这一块,做出智能的模型和 chat 相结合,全球吉他用户估计都会碾压式测试,和音轨分离目标用户不是量级
|
21
829939 OP @fanjk 这需要对大量音频数据进行特征提取,对数据进行标注,打上情感标签。然后建立机器学习模型,对标注好的数据进行训练。然后就可以针对你的音频进行情感预测。
|
22
zhhanging 2023-04-03 15:00:20 +08:00
现在手机上的调音器 app 就可以有 1 的效果了呀,而且调音功能是免费的,我用的是 guitartuna
|
23
829939 OP @zhhanging 你说的没错。市面上确实有一些还不错的调音器 APP 。 但是并没有发现能识别你弹奏的是哪一根弦的,而是根据识别到的音高频率 简单的归到临近频率的弦上。 这对吉他新手 或者“新琴”很不友好,识别错弦的话 很容易让人把弦条断。
这里就可以根据每根弦的声乐特征进行训练,可以识别出用户弹奏的是哪一根弦,进而提示该调高还是调低。 另外这个做出来也将是开源的。guitartuna 好像还有些付费限制。 |
24
james0517 2023-04-03 15:15:01 +08:00
我想训练模型,可是我的垃圾显卡不太想,40 系显卡太贵了 - - 还有什么推荐吗
|
25
chatWell1 2023-04-03 15:15:05 +08:00
@zhhanging "识别音高和拨动的哪一根琴弦",大佬想表达应该不止音高,还有确认是哪一根弦发出的,目前市面上 app 大多估计都是基于纯粹的频率音高做的,对新手可能不太友好,某些情况下弦可能调断或越调越低
|
27
james0517 2023-04-03 15:23:38 +08:00
@CMLab Colab 我看过,感觉有点麻烦。 我本地大量数据集还要上传到 google ,费流量。
还是想在本地跑。 有没有显卡推荐 |
32
s0nnse 2023-04-03 16:12:44 +08:00 1
1 无用,很多调音设备已经具备这个功能了,并不复杂。推荐自动扒歌、音画分录的音轨自动对齐,根据视频里的手势自动识别和弦、自动生成简谱,根据录屏自动教学、纠错。
|
33
diggerdu 2023-04-03 16:19:09 +08:00
分离转谱这些技术都相对成熟了
|
34
chatWell1 2023-04-03 16:31:26 +08:00
|
35
insmoin 2023-04-03 17:05:00 +08:00
钢琴转录 midi 好几年前就有了 你可以优化下 字节开源的 https://github.com/bytedance/piano_transcription
|
38
CMLab 2023-04-03 17:41:53 +08:00
@insmoin 这个早起有关注过,网络结构上采用常用的 CRNN+联合损失函数,给的 demo 也不错,之前录了一把小星星实测一把,效果不理想,比 demo 差远了,我怀疑是不是某种过拟合了,还是真实录制的钢琴( the one )就是有问题,大佬有实测使用过感受效果吗?
|
39
CMLab 2023-04-03 17:49:59 +08:00
|
40
xbcslzy 2023-04-03 18:05:33 +08:00
@fanjk 高端的矿少一些 特别是 12G 版本的, 而且 30 系是最后一代 sli 了 后边扩 2 卡 4 卡不知道 40 系能不能搞
|
45
zw1234 2023-04-03 20:27:46 +08:00
能否用 chatgpt 生成歌词和旋律,然后合成歌曲,ai 写歌...
|
46
829939 OP @chatWell1 音频指纹上面有提到两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
|
47
829939 OP @zw1234 chatGPT 目前应该可以生成歌词和旋律,接着还可以给旋律配乐,目前输出只能是文本形式,更成熟的生产力可能需要更专业的 prompt 和后续 audio 输出的支持。
|
48
xbcslzy 2023-04-03 23:03:37 +08:00
看评论区这些如果实现了又要释放一波生产力了, 不过最近 B 站多位博主暂时停更了 要开始反对 AI 了
|
49
clemente0620 2023-04-04 10:27:46 +08:00
能做乐器迁移吗? 比如 吉他换成钢琴
|
50
chatWell1 2023-04-04 10:43:52 +08:00
@clemente0620 google Magenta 这个项目有你所说的类似功能
|
51
olderwang 2023-04-04 18:14:53 +08:00
好奇,是否可以做声音的音色模拟啥的,通过输入目标音频,提取对应的音色,然后赋值给新的视频中对应的音频,感觉这个功能可以做些热门视频本地方言化,在地方论坛或者抖音地方中获取不错的流量
|
52
ppxiale 2023-04-04 18:25:22 +08:00
@olderwang 我觉得你这个可以有,小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的,不过我觉得这块可能还有个问题不好解决,就是方言对应的语料库这些,类似于语言翻译这块,不仅仅是声音音色识别,口音只是方言的一个特色,很多语义其实也需要解决
|
53
olderwang 2023-04-04 18:30:45 +08:00
@ppxiale 嗯,是这样,音频领域和文字领域很多都是相辅相成的,入口出口都有很大价值,能操作的点还是很多的,期待大佬们的作品
|
54
insmoin 2023-04-04 21:30:56 +08:00
@CMLab GUI 版 https://github.com/azuwis/pianotrans/ 还原度能达到 90%以上吧, b 站搜 AI 扒谱能搜到很多, 只能是钢琴的
|
55
insmoin 2023-04-04 21:58:17 +08:00
@CMLab "给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来"
今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能 思路挺不错的 我觉得这个思路可以拿来实现你说的这个 https://www.bilibili.com/video/BV1mT411s7Qr |