漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-24 talkingdev

SynCity:无需训练,从文本生成精细3D世界的创新系统

SynCity是一种革命性的系统,能够直接从文本提示生成详细的3D世界,而无需任何训练。该系统结合了2D图像生成器和3D生成器的优势,前者确保了艺术质量,后者则提供了精确的几何结构。SynCity以分块的方式构建场景,并...

Read More
2025-03-19 talkingdev

无需额外训练,通过Diffusion Transformer实现图像个性化

最新的技术突破使得我们几乎可以通过在Diffusion Transformer中使用token替换来实现对任何图像的个性化,而无需进行额外的微调或训练。这一创新方法不仅大大简化了个性化图像的生成过程,还显著提高了效率。Diffusio...

Read More
2025-03-14 talkingdev

Block Diffusion:自回归与扩散模型之间的创新融合

近日,一项名为Block Diffusion的技术引起了广泛关注。该技术通过创新的方式在自回归模型(autoregressive models)和扩散模型(diffusion models)之间进行插值,为生成模型领域带来了新的突破。自回归模型以其序列...

Read More
2025-03-13 talkingdev

[开源] 感应矩匹配:连续数据扩散模型的统一与简化

近日,Luma Labs在GitHub上开源了一个名为感应矩匹配(Inductive Moment Matching, IMM)的项目,该项目通过一种新的矩匹配框架,为连续数据的扩散模型提供了一种统一且简化的解决方案。这一技术不仅显著减少了生成...

Read More
2025-03-13 talkingdev

[论文推荐]CATANet:通过长距离内容相似性标记聚合实现图像超分辨率

近期,一项名为CATANet的创新技术在高分辨率图像生成领域取得了重要进展。该技术通过聚合长距离内容相似的标记(tokens),显著提升了图像超分辨率的效果。传统的超分辨率方法通常依赖于局部特征的处理,而CATANet则...

Read More
2025-03-11 talkingdev

Smalldiffusion:轻量级扩散模型训练与采样工具包发布

近日,GitHub上发布了一款名为Smalldiffusion的开源工具包,专为扩散模型的训练与采样设计。该工具包以轻量、高效和易读性为核心特点,旨在为研究人员和开发者提供一个简洁且高性能的解决方案。Smalldiffusion不仅优...

Read More
2025-03-06 talkingdev

ToLo推出全新两阶段无训练布局到图像生成框架

近日,ToLo推出了一种创新的两阶段、无需训练的布局到图像生成框架,专门针对高重叠布局设计。该框架通过两个独立的阶段实现图像生成:第一阶段利用预训练的模型生成初步图像,第二阶段则通过优化算法对图像进行精细...

Read More
2025-03-05 talkingdev

VARGPT:统一视觉理解与生成的多模态大语言模型

VARGPT是一种多模态大语言模型(MLLM),其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据,实现更高效的跨模态信息处理。通过自回归机制,VARGPT不仅...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page