漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-26 talkingdev

ElasticDiffusion-实现灵活尺寸和宽高比的文本生成图像

ElasticDiffusion是一种革新性的解码方法,它使得文本到图像的扩散模型能够在不经过额外训练的情况下,创建不同尺寸和宽高比的图像。这种技术的出现,为图像生成领域带来了新的可能性,尤其是在处理具有特定宽高比要...

Read More
2024-03-25 talkingdev

论文:开放词汇注意力图谱革新图像分割技术

开放词汇注意力图谱(OVAM)是一种新兴的图像分割技术,它通过对类Stable Diffusion的文本到图像扩散模型进行改进,实现了对任意词汇生成注意力图的功能,打破了之前的限制。这意味着,通过OVAM,开发者和研究人员能...

Read More
2024-03-12 talkingdev

VideoElevator:将文本转化为视频的新方法

VideoElevator引入了一种新的方法,通过利用文本到图像模型的优势来增强文本到视频扩散模型。这种即插即用的方法将增强过程分为了调整时间运动和提升空间质量两个部分,从而产生了帧质量和文本对齐得到了提高的视频...

Read More
2024-03-07 talkingdev

稳定扩散 3:研究论文

稳定扩散 3 通过其新颖的多模态扩散转换器架构,通过文本和图像的分别处理权重,提高了提示理解和排版,优于领先的文本到图像模型,为AI生成的视觉内容带来了进步。

Read More
2024-03-05 talkingdev

Smooth Diffusion-增强文本到图像扩散模型的潜在空间平滑度

一种名为Smooth Diffusion的新方法解决了文本到图像扩散模型的潜在空间平滑度挑战。该方法确保在输入微小调整时,图像呈现出一致和逐渐的变化。

Read More
2024-02-16 talkingdev

文本驱动的图像编辑无需蒙版

研究人员开发了一种基于文本提示进行图像编辑的独特方法。这种方法使用文本到图像模型和边界框生成器来识别需要编辑的区域,从而无需蒙版或草图即可进行更改。该方法可实现文本驱动的图像编辑,可以大大提高图像编辑...

Read More
2024-02-15 talkingdev

Stable与Wurstchen发布新的文本到图像模型

Stable Cascade模型是一种新的仅用于研究的文本到图像模型,其在美学、提示忠实度和文本质量方面优于SDXL。它是使用Würstchen架构进行训练的,并具有多步架构,使调整变得容易。该模型的稳定性能够有效地提高图像生...

Read More
2024-01-25 talkingdev

开源RPG框架,改进文本到图像生成质量

最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page