漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-08-11 talkingdev

OpenDevin-为AI开发者提供通用Agent服务

OpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台,旨在提供一个统一的接口,使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口,包括数据集管理、模型训练...

Read More
2024-07-02 talkingdev

UnSAM-无监督SAM自动图像分割技术开源

无监督SAM(UnSAM)是一种新型的全图像分割模型,它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法,识别视觉场景中的层次结构,采用一种分而治之的方法。在复杂的视觉场景中,这种方法可以更...

Read More
2024-06-26 talkingdev

OpenGlass开源:普通眼镜变身AI智能眼镜

OpenGlass是一款创新的技术项目,其目标是将任何眼镜转变为AI技术驱动的智能眼镜。这款项目的核心理念是利用AI技术,使得传统的眼镜拥有智能眼镜的功能,包括语音识别、图像识别和现实增强等技术。这样,用户无需更...

Read More
2024-06-25 talkingdev

2024年CVPR顶会论文精选-计算机视觉论文Top40

在2024年CVPR(计算机视觉与模式识别)会议中,我们精心策划了一份计算机视觉领域的论文清单。这些论文涵盖了计算机视觉的各个方面,包括深度学习、物体检测、图像识别、语义分割等。每篇论文都代表了该领域的最新研...

Read More
2024-06-20 talkingdev

TroL-高效大型语言和视觉模型开源

近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...

Read More
2024-06-19 talkingdev

论文:图像的子对象标记化,革新视觉模型理解方式

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...

Read More
2024-06-19 talkingdev

Meta发布Chameleon模型并开源,支持同时操作图像和文本

蜥蜴(Chameleon)是一个早期融合模型,它能同时操作图像和文本标记。其团队几周前发布了这篇论文。现在,他们已经发布了模型检查点以及推理代码。这一模型的发布,标志着图像和文本融合技术的新进展,同时,它的开...

Read More
2024-06-07 talkingdev

Together AI发布高分辨率图像处理新模型DragonFly Vision

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型(VLM)。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术,包括深度学习和神经网络优化,从而实...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page