漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-16 talkingdev

论文:英汉文本到图像生成新标杆,混元-DiT的突破性发展

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...

Read More
2024-05-13 talkingdev

音频扩散AudioDiff:ElevenLabs科学家新作开源

在科技日新月异的今天,ElevenLabs的一位研究科学家发布了一个名为音频扩散PyTorch的GitHub仓库,该仓库可能成为复制令人惊叹的结果的起点。这个仓库是基于PyTorch的音频扩散实验,旨在通过开源的方式,让更多的音频...

Read More
2024-05-03 talkingdev

StreamMultiDiffusion开源,实时交互式图像创作

近日,一个名为StreamMultiDiffusion的新框架在GitHub上开源,该框架能够实现实时的区域性文本到图像的生成。这是一项突破性的技术,可以将文本信息实时转换为图像,显著提高了图像生成的效率和便利性。无论是在设计...

Read More
2024-04-30 talkingdev

StoryDiffusion:远距离图像和视频生成技术

StoryDiffusion是一项新的机器学习技术,可用于生成具有长距离相关性的图像和视频。它使用了一种称为StoryGAN的生成模型,可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频...

Read More
2024-04-28 talkingdev

论文:传播模型新突破,CutDiffusion实现超分辨率

CutDiffusion是一种全新的方法,它能够将低分辨率的传播模型转化,以满足高分辨率的需求,而无需传统调整的复杂性。传播模型在各种科学和工程领域中都有广泛的应用,包括物理学、计算机科学、生物科学等。然而,传统...

Read More
2024-04-11 talkingdev

策略引导扩散技术:提升离线强化学习模型性能

策略引导扩散(Policy-Guided Diffusion)是一种新颖的训练代理的方法,适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹,从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...

Read More
2024-04-09 talkingdev

论文:AI图像生成技术新突破,提示自动编辑技术助力文本到图像转换

近期,研究人员开发了一种名为提示自动编辑(Prompt Auto-Editing,简称PAE)的新技术,旨在提升基于文本生成图像的技术水平。该技术利用了Imagen和Stable Diffusion等扩散模型,通过在线强化学习动态调整文本提示中...

Read More
2024-04-08 talkingdev

MLPerf 基准测试新增大型生成型AI模型,Nvidia 系统性能超群

MLPerf 近日更新了其推理基准测试,新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型,这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中,Nvidia 的系统,尤其是搭载了 H200 处理器的...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page