音频的相关内容 - 漫话开发者

2023-10-24 talkingdev

SALMONN：AI模型能够理解声音世界

本文介绍了SALMONN，这是一种独特的AI模型，它将文本理解与处理各种音频输入（从语音到音乐）的能力相结合。 SALMONN不仅在训练过的音频任务（如语音识别）中表现出色，而且展示了令人印象深刻的新技能，例如将语音...

2023-10-17 talkingdev

这项研究介绍了一种名为Ex-MCR的新方法，该方法可以有效地学习多个模态的统一对比表示，而无需配对数据。通过对齐现有的多模态对比表示，Ex-MCR在音频-视频检索和3D物体分类等任务中实现了最佳性能。该方法在GitHub...

2023-10-17 talkingdev

Insanely Fast Whisper是一个使用OpenAI的Whisper Large v2模型的音频转录工具，它可以在不到10分钟的时间内转录300分钟的音频。该工具快速且易于使用，同时可提供基准测试结果。

2023-10-11 talkingdev

研究人员推出了一种名为FAVOR的新方法，该方法通过在帧级别精细融合音频和视觉细节，使大型语言模型能够理解视频。FAVOR方法的推出，为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

2023-10-04 talkingdev

Reka近日推出一款名为Yasa-1的多模态模型，该模型能处理音频、视频和文本，是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现，目前正处于私人预览阶段。Yasa-1继承了T5的精神...

2023-09-29 talkingdev

DeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩，使其仅占原始大小的43.4％，并将音频数据压缩到仅占原始大小的16.4％。

2023-09-26 talkingdev

近日，Spotify推出一项由AI驱动的语音翻译功能，该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录，很可能用于声音复制，使得翻译能够保持播客者独特的声音。这一创新...

2023-09-22 talkingdev

这项研究介绍了AV-SUPERB，这是一个新的基准测试，用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展，并为未来的研究提供一个统一的平台。这项研究突出了模...