Fusion的相关内容 - 漫话开发者

2024-05-16 talkingdev

改进扰动注意力模型PAG：提升扩散模型的图像质量

扰动注意力指引（PAG）是一种提升扩散模型生成图像质量的新方法，无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制，PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...

2024-05-16 talkingdev

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆，特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道，为持续的模型改进提供了可能性。而这一突破性的发展，不仅提升了英汉文本...

2024-05-13 talkingdev

在科技日新月异的今天，ElevenLabs的一位研究科学家发布了一个名为音频扩散PyTorch的GitHub仓库，该仓库可能成为复制令人惊叹的结果的起点。这个仓库是基于PyTorch的音频扩散实验，旨在通过开源的方式，让更多的音频...

2024-05-03 talkingdev

近日，一个名为StreamMultiDiffusion的新框架在GitHub上开源，该框架能够实现实时的区域性文本到图像的生成。这是一项突破性的技术，可以将文本信息实时转换为图像，显著提高了图像生成的效率和便利性。无论是在设计...

2024-04-30 talkingdev

StoryDiffusion是一项新的机器学习技术，可用于生成具有长距离相关性的图像和视频。它使用了一种称为StoryGAN的生成模型，可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频...

2024-04-28 talkingdev

CutDiffusion是一种全新的方法，它能够将低分辨率的传播模型转化，以满足高分辨率的需求，而无需传统调整的复杂性。传播模型在各种科学和工程领域中都有广泛的应用，包括物理学、计算机科学、生物科学等。然而，传统...

2024-04-15 talkingdev

最近，一个名为PanFusion的项目引起了业界的广泛关注。该项目采用了一种双分支扩散模型，可以直接从文本提示生成360度全景图像。该方法结合了稳定的扩散技术和专门的全景分支，并通过独特的交叉注意力机制来减少图像...

2024-04-11 talkingdev

策略引导扩散（Policy-Guided Diffusion）是一种新颖的训练代理的方法，适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹，从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...