漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-07 talkingdev

论文:Boximator,可控的视频合成技术

视频合成一直以来都很难被控制。但是,这项研究提出了使用方框和箭头来引导生成过程,从而改善人类的偏好判断。虽然这种方法仍无法给用户提供完美的指导,但是它是一种新的尝试和探索。Boximator技术的优点在于,它...

Read More
2023-11-10 talkingdev

双阶方法实现更高清的文本视频生成

I2VGen-XL模型采用双阶段方法解决视频合成中的挑战,例如保持语义准确性和清晰、连续的图像,首先将语义连贯性与视频质量增强分开处理。第一阶段专注于保留静态图像的内容,第二阶段则细化细节和分辨率。

Read More
2023-07-18 talkingdev

将故事变成电影:一种创新的文本到视频合成框架

这个项目引入了一种突破性的方法,可以通过根据故事情节定制现有视频剪辑的外观,将文字故事转化为连贯的视频。这个新的框架使用先进的算法和技术,能够理解故事的文本内容,然后通过分析和解析文本中的关键信息,将...

Read More
2023-04-20 talkingdev

新技术来袭:文本转换为视频合成进入新时代

以下是本篇新闻的三个核心要点: - 最近在图像合成方面取得的进展是通过使用“潜在扩散”来实现的,这样合成就可以在较小的空间内完成,既节省成本又保持高质量的生成。 - 现在这种技术也可以应用于视频生成领域。通...

Read More
2023-04-14 talkingdev

DreamPose:通过稳定扩散实现时尚图像到视频合成

新闻内容: 通过DreamPose,我们可以实现以下三点核心功能: - DreamPose是基于扩散的图像到视频合成模型。 - 通过输入一个人物的图像和姿势序列,DreamPose可以合成一个逼真的视频,展示出输入人物按照姿势序列的...

Read More