漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-13 talkingdev

Audiocraft:音频处理的深度学习库

内容摘要: - Audiocraft是一个音频处理和生成的库 - 它由MusicGen驱动,是一种最先进的可控文本到音乐模型 - Audiocraft基于深度学习技术,具有强大的音频处理能力

Read More
2023-06-02 talkingdev

GeneFace++:实时音频驱动的三维说话人生成技术

近日,研究人员开发出了一项名为GeneFace++的技术,可以实现实时音频驱动的三维说话人生成。该技术的出现,让数字化的说话人物变得更加逼真,与任何语音音频同步。 GeneFace++的诞生,主要是为了解决数字世界中创造...

Read More
2023-06-01 talkingdev

Macaw-LLM:将图像、视频、音频和文本数据结合的多模态语言模型

在 CLIP、Whisper 和 LLaMA 的基础上,Macaw-LLM 探索性地开发了一种多模态语言模型,无缝结合了图像、视频、音频和文本数据。 以下是该新闻的三个核心要点: - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、...

Read More
2023-05-23 talkingdev

CoDi:通过可组合扩散实现任意生成

科技新闻:研究人员引入了一种独特的AI模型——可组合扩散(CoDi),它可以基于任何组合的输入生成任何混合输出类型,如语言、图像、视频或音频,这使它与传统的AI系统有所不同。尽管许多输入输出组合缺乏训练数据,但...

Read More
2023-05-22 talkingdev

新技术发布:ONE-PEACE模型可全面处理视觉、语音和语言任务

ONE-PEACE是一种新模型,无需从预先训练的模型开始,就能出色地理解图像、声音和单词,并在涉及视觉、音频和语言的任务中表现出色。它还具有一个独特的功能,可以在不曾共同出现的不同类型的数据之间找到联系,其灵...

Read More
2023-05-17 talkingdev

苹果手机能够通过15分钟的训练说出你的声音

苹果公司将在今年晚些时候推出一系列新的辅助功能,可能会随iOS 17一起发布。其中“个人语音”功能可让人们仅通过15分钟的音频录制就能创建出合成语音。该功能使用设备上的机器学习,确保数据的私密性和安全性。同时,...

Read More
2023-05-10 talkingdev

Meta公开多元感官AI模型的源代码

Meta宣布推出了一种新的开源AI模型,可以将多种数据流连接在一起,包括文本、音频、视觉数据、温度和运动读数。 ## 核心要点: 以下是该新闻的三个核心要点: - Meta发布了一个新的开源AI模型,该模型可以将多种...

Read More
2023-05-02 talkingdev

HuggingFace新版本Whisper速度提升70倍

- Whisper现已在Jax上运行,能够在短短几秒钟内转录1小时的音频。 - 该模型本身已经是最强大的语音转文本系统之一,现在加上了惊人的速度,使用起来几乎是不费吹灰之力。 - 尽管仍有缺点,但这是社区取得的卓越成果...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page