扩散模型的相关内容 - 漫话开发者

2024-02-05 talkingdev

Google展示移动端潜在一致性扩散模型

谷歌展示了一种潜在的一致性扩散模型，并进行了一些架构上的改变。该模型在移动设备上进行了训练，具有亚秒级的生成时间。

2024-02-02 talkingdev

本文介绍了一个基于场景和手写文本的基准测试和两个数据集。利用原始、损坏和辅助图像，全局结构引导扩散模型（GSDM）利用文本结构有效恢复清晰文本。该技术在识别准确度和图像质量方面显示出显著的改进。

2024-01-31 talkingdev

研究人员通过在训练手部注释图像中添加三个额外通道，改善了生成模型（例如GAN和扩散模型）创建逼真手部图像的能力。这种方法利用了手部形态的先验知识，可以应用于许多手部相关的任务，例如手语翻译和手势识别。此...

2024-01-31 talkingdev

CreativeSynth是一种艺术图像编辑方法，通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制，能够精确地处理风格和内容，同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...

2024-01-31 talkingdev

3D对象生成的一个关键挑战是可以创建的物品的多样性。本研究使用修改后的架构来提高样本效率，并将系统扩展到可以处理每个3D类别中更大的对象集。

2024-01-30 talkingdev

Pix2Gestalt是一种针对零样本全景分割的框架。它擅长在部分遮挡的情况下重建完整的物体形状和外观。利用大规模扩散模型，Pix2Gestalt在挑战性场景中表现出色，包括那些不符合通常模式的艺术图像。Pix2Gestalt的创新...

2024-01-26 talkingdev

Google、Weizmann科学研究所和特拉维夫大学推出了Lumiere，这是一种用于逼真视频生成的时空扩散模型，相对于现有的AI视频模型，它承诺更连贯的运动和更高的质量。目前尚未公开测试。

2024-01-25 talkingdev

谷歌正在增强Chrome的功能，包括在线文本编辑助手、多标签页自动整理和基于文本到图像扩散模型的自定义主题创建器等AI功能。