生成技术的相关内容 - 漫话开发者

2024-01-12 talkingdev

单个非自回归Transformer实现掩码音频生成

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反，它使用了一个掩码语言模型来生成音频令牌。

2023-12-25 talkingdev

研究人员开发了一种“序列感知”损失函数，以改进去噪概率模型(DPM)，解决了图像生成中时间步长相关性的问题。这种新方法不仅提供了更紧凑的损失估计，而且在诸如CIFAR10和CelebA等数据集上显示出显著的图像质量改进，...

2023-12-22 talkingdev

Diff-Text是一种新的无需训练的框架，可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验，增强了稳定扩散模型的多语言能力。

2023-12-22 talkingdev

阿里巴巴推出了一项名为FontDiffuser的技术，该技术是一种基于扩散的自动字体生成方法，特别擅长处理复杂字符和大规模风格变化。它采用多尺度内容聚合块来更好地保留笔画，并配备了风格对比细化模块来进行风格转移。...

2023-12-21 talkingdev

Google的VideoPoet是一种开创性的语言模型，它在处理文本到视频，视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

2023-12-08 talkingdev

Meta发布了一个名为Imagine的独立图像生成器，其拥有自己的网站，使用生成式人工智能从文本提示中创建图像。该工具使用GAN（生成式对抗网络）技术，可以生成高度逼真的图像，用户只需输入文本提示，就可以生成与之相...

2023-12-05 talkingdev

一种新的方法利用扩展的StyleGAN嵌入空间W+用于文本到图像扩散模型，提高了生成图像中的身份保留能力。这种技术可以为个性化的图像生成提供更多的可能性，更好地满足用户的需求。

2023-11-28 talkingdev

Kandinsky Video采用双阶段文本到视频生成技术。首先，它通过关键帧来勾勒视频的故事情节，然后平滑过渡和移动，大大提高了视频质量并降低了计算要求。