漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-25 talkingdev

论文:开放词汇注意力图谱革新图像分割技术

开放词汇注意力图谱(OVAM)是一种新兴的图像分割技术,它通过对类Stable Diffusion的文本到图像扩散模型进行改进,实现了对任意词汇生成注意力图的功能,打破了之前的限制。这意味着,通过OVAM,开发者和研究人员能...

Read More
2024-03-21 talkingdev

通用一致性轨迹模型(GCTMs)助力提升图像编辑效率

近期,一项名为Generalized Consistency Trajectory Models(GCTMs)的新项目在GitHub上发布,该项目致力于通过引入一致性模型来增强扩散模型在图像编辑和恢复等任务上的能力。GCTMs通过简化处理流程,实现了通过单...

Read More
2024-02-16 talkingdev

文本驱动的图像编辑无需蒙版

研究人员开发了一种基于文本提示进行图像编辑的独特方法。这种方法使用文本到图像模型和边界框生成器来识别需要编辑的区域,从而无需蒙版或草图即可进行更改。该方法可实现文本驱动的图像编辑,可以大大提高图像编辑...

Read More
2024-02-14 talkingdev

苹果发布多模态LLM指导下的图像编辑代码

苹果发布了一款新的代码,使用多模态语言模型来改进人类提供的自然语言图像编辑。这个新的代码的核心思想是使用大型语言模型来指导用户对图像进行编辑,从而提高编辑的质量和效率。该代码的具体实现是将图像与自然语...

Read More
2024-02-14 talkingdev

苹果推出MGIE,一款革命性的AI模型,用于基于指令的图像编辑

苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...

Read More
2024-01-31 talkingdev

论文:AI改写艺术图像编辑

CreativeSynth是一种艺术图像编辑方法,通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制,能够精确地处理风格和内容,同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...

Read More
2024-01-20 talkingdev

论文:自然语言控制图像编辑技术大幅提升

一项新的研究通过解决图像编辑中存在的挑战,例如不明确的指令和识别需要修改的图像部分,大幅提高了使用自然语言指令编辑图像的效率。该研究使用了深度学习和自然语言处理技术,将自然语言指令转换为可执行的图像编...

Read More
2024-01-11 talkingdev

人体姿态与身形编辑技术取得新突破

该项目介绍了一种一次性编辑人类图像的方法,可以在保留人的身份的同时,对姿势和身形进行重大变化。该技术基于深度学习模型,利用对抗生成网络 (GAN) 和条件生成网络 (CGAN) 的方法,用户只需提供一张人体图像,就...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page