漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-21 talkingdev

交互式推理技术助力大型视觉语言模型更精准理解图像

Chain-of-Spot(CoS)技术近日提出了一种交互式推理方法,该方法大幅提升了大型视觉语言模型(LVLMs)处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域,使得LVLMs能够在不损失图像分辨率的前...

Read More
2023-10-20 talkingdev

Fuyu-8B:面向AI Agent的多模态架构

HuggingFace 上现已推出 Fuyu-8B,这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是,它具有简化的架构,并支持任意图像分辨率,在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序,Fuyu-8B...

Read More
2023-08-17 talkingdev

CIM开源,提升计算机视觉和图像理解能力

在一张图片中,计算机有时会将同一对象识别为多个。现在,一个新的项目开发出一种方法,帮助计算机识别并聚焦于对象的单一完整版本。这种方法的出现,将对计算机视觉和图像理解能力的提升起到关键作用,不仅可以优化...

Read More
2023-07-26 talkingdev

新论文:提升医疗图像理解的新方法

最新的一项研究论文介绍了一种新的方法,以更好地从医疗图像和相应的书面报告中学习。不同于以往的方法,这一方法专注于详细的图像-报告链接,并采用独特的手段在图像和报告之间重建和交换信息。该方法的创新之处在...

Read More
2023-07-07 talkingdev

采用分层开放词汇学习的图像分割方法 (GitHub Repo)

本论文介绍了HIPIE,一种新颖的图像分割方法,通过将不同的语义层次纳入其学习过程中,解决了复杂场景下的图像分割问题。它在各种图像理解任务中表现优于现有模型,为不同情境下的分割任务提供了统一的解决方案。

Read More
  1. Prev Page