漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-01 talkingdev

论文:探索Mamba,先进计算机视觉的视觉基础模型

Mamba模型是一种先进的方法,擅长处理长序列,而不会带来传统Transformers的计算缺点。在计算机视觉领域,Mamba模型已经取得了显著的成果,并在多个应用中展现出其优越性。相比于传统的Transformers模型,Mamba模型...

Read More
2024-03-15 talkingdev

ViT-CoMer:新神经网络模型增强Vision Transformers的密集预测任务能力

近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

Read More
2024-03-14 talkingdev

MoAI:整合视觉任务信息的增强型语言模型

MoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...

Read More
2024-03-07 talkingdev

Vision-RWKV:处理高分辨率图像任务的高效模型

Vision-RWKV将NLP中的RWKV架构应用于视觉任务,为高分辨率图像处理提供了一个高效的解决方案。RWKV是一种基于注意力机制的架构,它在处理序列数据时表现出色,而Vision-RWKV则将其成功地应用于图像领域。该模型的表...

Read More
2024-03-06 talkingdev

Anthropic发布Claude 3家族的三个新模型,最强模型匹敌GPT4

Anthropic最近发布了Claude 3家族的三个新模型,其中最强的模型匹敌了GPT4的报告基准结果。此外,这是一个多模态模型,对视觉任务表现良好。值得注意的是,Claude的编码能力在此版本中得到了显著提高。

Read More
2024-02-23 talkingdev

Meta发布MMCSG数据集,助力社交音频和视觉任务研究

Meta发布了MMCSG数据集,其中包含数千个通过Aria眼镜记录的双向对话,旨在鼓励在各种社交音频和视觉任务中的研究。

Read More
2024-01-22 talkingdev

Diffusion模型可用于内容超分辨率

随着最近将扩散模型用于各种其他视觉任务的趋势,本研究改进了超分辨率的训练稳定性和缩放。

Read More
2024-01-10 talkingdev

论文:去噪视觉Transformer

视觉Transformer (ViT)已经成为视觉领域的主要研究方向,然而在它们的嵌入中,仍然有时会出现网格状的伪影。这使得社区在将其应用于下游任务时持怀疑态度。本研究提出了一种更新位置嵌入的方法,消除了这一问题,并...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page