漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-24 talkingdev

SALMONN:AI模型能够理解声音世界

本文介绍了SALMONN,这是一种独特的AI模型,它将文本理解与处理各种音频输入(从语音到音乐)的能力相结合。 SALMONN不仅在训练过的音频任务(如语音识别)中表现出色,而且展示了令人印象深刻的新技能,例如将语音...

Read More
2023-10-17 talkingdev

Ex-MCR:无配对数据的多模态学习方法

这项研究介绍了一种名为Ex-MCR的新方法,该方法可以有效地学习多个模态的统一对比表示,而无需配对数据。通过对齐现有的多模态对比表示,Ex-MCR在音频-视频检索和3D物体分类等任务中实现了最佳性能。该方法在GitHub...

Read More
2023-10-17 talkingdev

Insanely Fast Whisper: 使用OpenAI模型,300分钟音频转录不到10分钟

Insanely Fast Whisper是一个使用OpenAI的Whisper Large v2模型的音频转录工具,它可以在不到10分钟的时间内转录300分钟的音频。该工具快速且易于使用,同时可提供基准测试结果。

Read More
2023-10-11 talkingdev

利用大型语言模型提升视频理解能力——FAVOR新方法的引入

研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

Read More
2023-10-04 talkingdev

Reka发布旗舰多模态模型Yasa-1,表现亮眼

Reka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...

Read More
2023-09-29 talkingdev

研究表明,AI语言模型在无损压缩方面能够超过PNG和FLAC

DeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。

Read More
2023-09-26 talkingdev

Spotify借助AI技术推出克隆和翻译播客者音频的新功能

近日,Spotify推出一项由AI驱动的语音翻译功能,该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录,很可能用于声音复制,使得翻译能够保持播客者独特的声音。这一创新...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page