V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  terryops  ›  全部回复第 1 页 / 共 4 页
回复总数  75
1  2  3  4  
@wswlaz 在线视频?哪个平台的
@Andim 你有没有发现你出现了李宗盛作词作曲这种幻听?然后 3 分 17 秒那句完全就错的。
我们研究了很多这种问题,有很多解决方案,比如然后你那个文件有点问题,我们有个功能,去杂音。
https://imgur.com/a/acOVSYO
勾选之后就能识别了。
https://imgur.com/a/AMVID1N
另外 Whisper 对音质要求很高的,音质差,识别率就差,断句也会差。你那个 8mb 的 wav 文件,码率应该相当低。
但是可以做一些音频处理,移除杂音。
<a href='https://postimg.cc/JydH3tZR' target='_blank'><img src='https://i.postimg.cc/JydH3tZR/temp-Imagej-U4z-LX.jpg' border='0' alt='temp-Imagej-U4z-LX'/></a>
@Andim 可能是你的文件有问题,我把你发的链接直接下载视频下来,拖进去转录,能出全部歌词。
[temp-Imagej-U4z-LX.jpg]( https://postimg.cc/JydH3tZR)
@deiphi 我们是基于 Large-V2 ,V3 有很多问题,测试后弃用了。
我们考虑到了很多边界的情况的处理,一个视频是测不出来质量差别滴。
@lidedongsn 谢谢,这块我们研究下能做到什么个程度。
@Cellinlab 他们有个雷同的产品呀,这是竞争关系哈哈哈
@webjourneyer 这个很简单,是浏览器自带的功能,用那个 WebVTT 的格式,就能挂载字幕了。
@Cellinlab 我们可以识别说话人,区分 1 、2 、3 、4 、5 、6 这样,但是具体这个人是谁,需要音色的向量保存下来,然后人工标注。
目前我们的产品主要定位是视频创作者,用户可以手动标注说话人的名字,目前来看是够用的。
@webjourneyer 多搞搞差异化吧。你想知道哪部分的细节?
@CivAx 我们的产品接下来打算集成这种功能,这类的功能其实很考验使用的体验。如果体验很差,比如速度慢,操作不便,用户宁愿自己在剪辑软件上手动搞。
@tangpanqing 3 分钟的音频,Get subtitle 老半天没反应,也没有进度条。建议先打磨产品
做成一个 saas ,比较好用。
然后自媒体宣传自己吧。
还想不用显卡,花时间在代码和 CPU 上,还不如买个好显卡。opencv 用 cuda 比 CPU 快好多好多倍
@alanhe421 默认 3.5 没问题,但是我已经选上了 GPT-4 ,下次打开还是 3.5 。这就不是不会做功能的缘故了,就是故意引导你用 3.5
@randychoi 擦……原来是个 bug……浪费我时间了
@1d074bfa18d34f6c 仍然如此
2022-05-14 11:15:47 +08:00
回复了 teem 创建的主题 分享发现 OIS - 月入 3k ~ 4k 的微信支付副业实践
楼主你好,我们公司想接入你的微信服务商收款,请问如何联系?
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5255 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 09:23 · PVG 17:23 · LAX 02:23 · JFK 05:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.