质量的相关内容 - 漫话开发者

2024-01-26 talkingdev

Google、Weizmann科学研究所和特拉维夫大学展示Lumiere，用于逼真的AI视频的时空扩散模型

Google、Weizmann科学研究所和特拉维夫大学推出了Lumiere，这是一种用于逼真视频生成的时空扩散模型，相对于现有的AI视频模型，它承诺更连贯的运动和更高的质量。目前尚未公开测试。

2024-01-25 talkingdev

SyncTalk是逼真的人物形象中的突破。它克服了以往在同步面部身份、唇部运动和表情方面遇到的挑战。SyncTalk使用最新的深度学习技术，通过从少量的样本中学习，以逼真的方式生成高质量的人物形象。 SyncTalk可以应用...

2024-01-25 talkingdev

最近，由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成，将复杂的图像创建任务分解为更简单的任务，从而在处理多个...

2024-01-24 talkingdev

近日，GitHub开源了MM-Interleaved模型，该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像，同时也可以从图像中提取文本。该模型使用了条件生成对抗网络（Co...

2024-01-23 talkingdev

HuggingFace发布了Datatrove，这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。

2024-01-22 talkingdev

Meta最近推出了一系列令人难以置信的音乐和声音生成模型，并发布了推理代码。这些模型是通过机器学习训练的，可以生成高质量的音乐和声音效果。该公司表示，这些模型可以用于广泛的应用场景，包括游戏声音、虚拟现实...

2024-01-22 talkingdev

HuggingFace于近日发布了Haiku DPO数据集，旨在帮助AI模型写出正确的日本俳句。该数据集由多位专业诗人参与标注，包含数千条俳句及其正确的音律和形式，涵盖了从传统到现代的各个风格。据悉，该数据集可以用于训练和...

2024-01-22 talkingdev

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上，这需要训练LoRA或使用DreamBooth。现在，通过使用ID嵌入，您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。