音频的相关内容 - 漫话开发者

2023-06-13 talkingdev

Audiocraft：音频处理的深度学习库

内容摘要： - Audiocraft是一个音频处理和生成的库 - 它由MusicGen驱动，是一种最先进的可控文本到音乐模型 - Audiocraft基于深度学习技术，具有强大的音频处理能力

2023-06-02 talkingdev

近日，研究人员开发出了一项名为GeneFace++的技术，可以实现实时音频驱动的三维说话人生成。该技术的出现，让数字化的说话人物变得更加逼真，与任何语音音频同步。 GeneFace++的诞生，主要是为了解决数字世界中创造...

2023-06-01 talkingdev

在 CLIP、Whisper 和 LLaMA 的基础上，Macaw-LLM 探索性地开发了一种多模态语言模型，无缝结合了图像、视频、音频和文本数据。以下是该新闻的三个核心要点： - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、...

2023-05-23 talkingdev

科技新闻：研究人员引入了一种独特的AI模型——可组合扩散（CoDi），它可以基于任何组合的输入生成任何混合输出类型，如语言、图像、视频或音频，这使它与传统的AI系统有所不同。尽管许多输入输出组合缺乏训练数据，但...

2023-05-22 talkingdev

ONE-PEACE是一种新模型，无需从预先训练的模型开始，就能出色地理解图像、声音和单词，并在涉及视觉、音频和语言的任务中表现出色。它还具有一个独特的功能，可以在不曾共同出现的不同类型的数据之间找到联系，其灵...

2023-05-17 talkingdev

苹果公司将在今年晚些时候推出一系列新的辅助功能，可能会随iOS 17一起发布。其中“个人语音”功能可让人们仅通过15分钟的音频录制就能创建出合成语音。该功能使用设备上的机器学习，确保数据的私密性和安全性。同时，...

2023-05-10 talkingdev

Meta宣布推出了一种新的开源AI模型，可以将多种数据流连接在一起，包括文本、音频、视觉数据、温度和运动读数。 ## 核心要点：以下是该新闻的三个核心要点： - Meta发布了一个新的开源AI模型，该模型可以将多种...

2023-05-02 talkingdev

- Whisper现已在Jax上运行，能够在短短几秒钟内转录1小时的音频。 - 该模型本身已经是最强大的语音转文本系统之一，现在加上了惊人的速度，使用起来几乎是不费吹灰之力。 - 尽管仍有缺点，但这是社区取得的卓越成果...