音频的相关内容 - 漫话开发者

2024-03-25 talkingdev

DeepGram推出Aura：实现低于250毫秒的低延迟文本转语音API

DeepGram公司近日推出了一项名为Aura的创新产品，这是一款文本转语音（TTS）API，其最引人注目的特性是拥有低于250毫秒的响应延迟时间。这一技术突破意味着用户可以在实时应用中获得更快的语音反馈，极大提升了交互...

2024-03-14 talkingdev

据报道，OpenAI计划在进行漏洞测试和设置安全防护措施后，于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型，这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...

2024-02-23 talkingdev

Meta发布了MMCSG数据集，其中包含数千个通过Aria眼镜记录的双向对话，旨在鼓励在各种社交音频和视觉任务中的研究。

2024-02-16 talkingdev

近日，Facebook发布了一款最先进的开源音频模型MaGNET，该模型速度是其他替代品的7倍，而且不会影响音频质量。MaGNET模型可以生成音乐和音效。MaGNET模型的论文已经发布，更多详情请访问GitHub仓库。

2024-02-06 talkingdev

近日，研究人员开发出了一种名为PAM的工具，它使用音频语言模型对音频质量进行评估，无需参考曲目或专业培训。PAM通过深度学习算法，将音频数据转化为分布式表示形式，并将其与质量分数进行关联。据研究人员介绍，PA...

2024-01-30 talkingdev

该项目提出了一种新颖的增强Transformer的方法，使用来自不同模态的无关数据，例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer，使目标模态能够从另一种模态的优势中受益。

2024-01-26 talkingdev

DiffMoog是一种新的音频技术，它将模块化合成器的多功能性与神经网络的强大结合起来。它可以实现自动化声音匹配和定制声音的创建，使其成为音频合成的有价值的工具。该技术已在GitHub上发布。

2024-01-22 talkingdev

Tiny Narrations是一个基于最受欢迎的Tiny Stories数据集的文本转语音版本。它使用SF Compute H100集群上的XTTS2。这个系统可以将短小精悍的故事转化为音频文件，方便用户在不同场景下收听。这个系统的优点是使用了...