漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-05-31 talkingdev

用多模态语言模型生成图像

## 新闻内容: - 近来,多种数据类型的多模态训练变得越来越受欢迎。 - 模型架构通常需要复杂且有点脆弱的解决方案。 - Gill是一个很酷的新项目,它将文本标记与图像标记交错使用,从而实现真正的多模态输入和输出...

Read More
2023-05-16 talkingdev

Meta公司推出多模态AI模型ImageBind

Meta公司的ImageBind是一种多模态AI模型,可以根据文本描述生成图片,也可以根据图片生成文本描述。该模型使用互联网上的各种文本和图片进行训练,因此具有很高的准确性和多样性。但是,该模型有时可能会产生不相关...

Read More
2023-05-16 talkingdev

EfficientViT:内存高效的Vision Transformer模型发布

据报道,研究人员近日发表了一篇论文,提出了一种名为EfficientViT的高速Vision Transformer模型。该模型在保证处理速度的同时,能够提高模型的准确度。通过重新设计Transformer模型的某些部分,他们能够显著降低与...

Read More
2023-05-09 talkingdev

轻量级多模态适配器能帮助AI模型更好地理解图像和语言

### 新闻内容: 研究人员创建了一个名为Cola的基准测试,以测试和改进AI模型在组合推理方面的表现。他们发现,当前的AI模型在组合物体和它们的特征方面仍存在困难。而轻量级多模态适配器可以帮助模型更好地理解图像...

Read More
2023-04-18 talkingdev

Multimodal C4:一个开放的、具有十亿级图像的文本语料库

以下是本新闻的三个核心要点: - Multimodal C4(mmc4)是一个公开可用的数据集,它将纯文本的c4语料库与交错的图像相结合,支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

Read More
2023-04-14 talkingdev

C-LoRA:解决文本到图像扩散模型中的“灾难性遗忘”问题

以下是新闻内容的核心要点: - 文本到图像扩散模型在定制化时面临“灾难性遗忘”的问题,导致过去概念的图像生成质量较差。 - 研究人员提出了 C-LoRA 方法,通过持续自我正则化低秩适应来克服这个问题,在持续扩散方...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13