漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-26 talkingdev

Google、Weizmann科学研究所和特拉维夫大学展示Lumiere,用于逼真的AI视频的时空扩散模型

Google、Weizmann科学研究所和特拉维夫大学推出了Lumiere,这是一种用于逼真视频生成的时空扩散模型,相对于现有的AI视频模型,它承诺更连贯的运动和更高的质量。目前尚未公开测试。

Read More
2024-01-25 talkingdev

Lumiere-谷歌AI视频生成器能够将可爱的动物放入不同场景中

Lumiere是一款使用时空扩散模型进行逼真视频生成的AI视频生成器。它使用的Space-Time U-Net架构可以一次性生成整个视频的时间持续时间。它旨在处理视频中物体的位置以及物体如何移动和变化。Lumiere可以执行文本到视...

Read More
2024-01-23 talkingdev

深度解析文本到视频技术原理

将文本描述转化为视频是当前研究的热门领域,最近几周出现了许多强大的模型。Hugging Face团队的这篇博客概述了这一任务、当前面临的挑战以及研究的现状。虽然不是完全全面的,但对于进一步阅读提供了良好的起点。

Read More
2023-12-21 talkingdev

VideoPoet:谷歌语言模型在视频创作中大放异彩

Google的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

Read More
2023-12-20 talkingdev

基于UNet编码器实现更快的扩散模型

最近的一项研究表明,与解码器相比,使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案,显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。

Read More
2023-11-28 talkingdev

KskyVideo-文本到视频生成技术开源

Kandinsky Video采用双阶段文本到视频生成技术。首先,它通过关键帧来勾勒视频的故事情节,然后平滑过渡和移动,大大提高了视频质量并降低了计算要求。

Read More
2023-11-22 talkingdev

多模态模型训练方法LLaVa,可用于视频生成

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大,可以轻松实现视频摘要和字幕的最新表现。

Read More
2023-11-10 talkingdev

双阶方法实现更高清的文本视频生成

I2VGen-XL模型采用双阶段方法解决视频合成中的挑战,例如保持语义准确性和清晰、连续的图像,首先将语义连贯性与视频质量增强分开处理。第一阶段专注于保留静态图像的内容,第二阶段则细化细节和分辨率。

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page