扩散模型的相关内容 - 漫话开发者

2025-05-14 talkingdev

视觉自回归方法EAR开源：无需量化的连续空间生成技术

近期GitHub开源项目EAR提出了一种突破性的视觉自回归生成方法，通过采用严格适当评分规则（如能量评分）绕过了传统量化步骤，直接在连续数据空间中进行生成。该技术摒弃了传统概率建模的约束，通过数学上严谨的评分...

2025-05-07 talkingdev

近日，GitHub上开源了一个名为DDT（Decoupled Diffusion Transformer）的项目，该项目实现了一种结合Transformer和扩散模型的新型架构。该架构采用Encoder-Decoder设计，其中Decoder部分由扩散模型构成。初步实验表...

2025-05-05 talkingdev

近日，一项名为'Attention Distillation for Diffusion-Based Image Stylization'的技术在图像生成领域取得重要进展。该技术通过利用预训练扩散模型中的自注意力特征，创新性地引入了注意力蒸馏损失函数，有效优化了...

2025-04-24 talkingdev

ANFM研究团队在arXiv最新发表的论文中，提出了一种基于过滤技术（filtration techniques）的革命性图生成方法。该技术通过优化传统图生成模型的拓扑结构处理流程，实现了比扩散模型快100倍的训练速度，同时保持了具...

2025-04-21 talkingdev

谷歌最新宣布，Gemini Advanced用户即日起可利用Veo 2模型实现文本到视频的AI生成能力。这项突破性技术可将自然语言描述直接转化为1080P分辨率、具有电影质感的动态影像，标志着多模态AI在视频创作领域的重大进展。V...

2025-04-21 talkingdev

最新研究通过两阶段优化策略，成功将自回归模型应用于个性化图像生成领域，其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架，第一阶段通过大规模数据集预训练构建基础模型，第二阶段采用针对性微...

2025-04-18 talkingdev

近日，一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数，首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

2025-04-09 talkingdev

近日，图像生成领域取得了一项重要技术突破，成功解决了长期困扰业界的'大象难题'。这一突破性进展标志着生成式AI在图像合成质量与逻辑一致性方面迈上了新台阶。研究人员通过改进LLM与扩散模型的协同机制，结合创新...