漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-20 talkingdev

论文:Meta发布全新融合多模型Chameleon,性能超越多种替代模型

Meta公司近日宣布发布一种名为Chameleon的全新模型,该模型可以像GPT-4o那样同时操作图像和文本。相比于许多其他的替代模型,Chameleon展现出了更好的性能。据悉,Meta团队在内部模型上已经远远超越了这项工作。该模...

Read More
2024-05-16 talkingdev

改进扰动注意力模型PAG:提升扩散模型的图像质量

扰动注意力指引(PAG)是一种提升扩散模型生成图像质量的新方法,无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制,PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...

Read More
2024-05-16 talkingdev

论文:英汉文本到图像生成新标杆,混元-DiT的突破性发展

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...

Read More
2024-05-13 talkingdev

音频扩散AudioDiff:ElevenLabs科学家新作开源

在科技日新月异的今天,ElevenLabs的一位研究科学家发布了一个名为音频扩散PyTorch的GitHub仓库,该仓库可能成为复制令人惊叹的结果的起点。这个仓库是基于PyTorch的音频扩散实验,旨在通过开源的方式,让更多的音频...

Read More
2024-05-03 talkingdev

StreamMultiDiffusion开源,实时交互式图像创作

近日,一个名为StreamMultiDiffusion的新框架在GitHub上开源,该框架能够实现实时的区域性文本到图像的生成。这是一项突破性的技术,可以将文本信息实时转换为图像,显著提高了图像生成的效率和便利性。无论是在设计...

Read More
2024-04-30 talkingdev

StoryDiffusion:远距离图像和视频生成技术

StoryDiffusion是一项新的机器学习技术,可用于生成具有长距离相关性的图像和视频。它使用了一种称为StoryGAN的生成模型,可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频...

Read More
2024-04-28 talkingdev

论文:传播模型新突破,CutDiffusion实现超分辨率

CutDiffusion是一种全新的方法,它能够将低分辨率的传播模型转化,以满足高分辨率的需求,而无需传统调整的复杂性。传播模型在各种科学和工程领域中都有广泛的应用,包括物理学、计算机科学、生物科学等。然而,传统...

Read More
2024-04-15 talkingdev

直接从文本生成360度全景图像开源

最近,一个名为PanFusion的项目引起了业界的广泛关注。该项目采用了一种双分支扩散模型,可以直接从文本提示生成360度全景图像。该方法结合了稳定的扩散技术和专门的全景分支,并通过独特的交叉注意力机制来减少图像...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page