这项研究介绍了一种创新的视频生成方法,使用状态空间模型(SSMs)克服了传统的基于注意力扩散模型的内存限制,重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中,SSMs能够创建具有竞争力质量的更长...
Read More这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...
Read MoreFace2Diffusion(F2D)为创建个性化人脸提供了一种新的解决方案,通过滤除非必要的身份信息,解决了过度拟合的常见问题,从而提高了可编辑性。F2D使用扩散卷积算法来生成人脸,该算法可以生成高质量的人脸图像,并且...
Read More近日,研究人员提出了一种名为 ViewFusion 的新算法,旨在改善扩散模型从新的视角生成图像的方式,确保图像在不同视角下保持一致。传统的扩散模型在处理多视角图像时,往往会产生不一致性,导致图像质量下降。ViewFu...
Read More苹果发布了一款新的代码,使用多模态语言模型来改进人类提供的自然语言图像编辑。这个新的代码的核心思想是使用大型语言模型来指导用户对图像进行编辑,从而提高编辑的质量和效率。该代码的具体实现是将图像与自然语...
Read MoreAnimateLCM是一种新的方法,可以通过将学习过程分成两部分来快速创建高质量的视频和改进现有的视频扩散模型。AnimateLCM的第一步是利用低复杂度的运动补偿技术来生成一个低质量的视频序列。 然后,利用一个基于自适...
Read More研究人员开发出了一种新方法来创建场景图,使该过程更快速和高效。他们基于Transformer的技术专注于改进模型对图像中不同元素的理解和连接方式,从而提高了模型在挑战性任务上的性能。
Read More研究人员引入了“提示高亮器”方法,它革新了多模态语言模型中的文本生成技术,使用户能够突出提示的某些部分,从而更好地控制生成的文本。这种方法提供了一种更加灵活、直观和有效的交互式控制方式,使得文本生成的结...
Read More