文本到图像的相关内容 - 漫话开发者

2024-03-07 talkingdev

稳定扩散 3：研究论文

稳定扩散 3 通过其新颖的多模态扩散转换器架构，通过文本和图像的分别处理权重，提高了提示理解和排版，优于领先的文本到图像模型，为AI生成的视觉内容带来了进步。

2024-03-05 talkingdev

一种名为Smooth Diffusion的新方法解决了文本到图像扩散模型的潜在空间平滑度挑战。该方法确保在输入微小调整时，图像呈现出一致和逐渐的变化。

2024-02-16 talkingdev

研究人员开发了一种基于文本提示进行图像编辑的独特方法。这种方法使用文本到图像模型和边界框生成器来识别需要编辑的区域，从而无需蒙版或草图即可进行更改。该方法可实现文本驱动的图像编辑，可以大大提高图像编辑...

2024-02-15 talkingdev

Stable Cascade模型是一种新的仅用于研究的文本到图像模型，其在美学、提示忠实度和文本质量方面优于SDXL。它是使用Würstchen架构进行训练的，并具有多步架构，使调整变得容易。该模型的稳定性能够有效地提高图像生...

2024-01-25 talkingdev

最近，由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成，将复杂的图像创建任务分解为更简单的任务，从而在处理多个...

2024-01-25 talkingdev

这篇技术报告介绍了MMCBench，这是一个新的基准测试，旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型（LMMs）的一致性和可靠性。该测试涵盖了超过100个流行模型，旨在提高读者对这些AI系统在现实世界...

2024-01-25 talkingdev

谷歌正在增强Chrome的功能，包括在线文本编辑助手、多标签页自动整理和基于文本到图像扩散模型的自定义主题创建器等AI功能。

2023-12-20 talkingdev

最近的一项研究表明，与解码器相比，使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案，显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。