漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-12 talkingdev

论文:OV-DINO-开放词汇检测的新方法

OV-DINO是一种新的开放词汇检测方法,它应对了整合多元化数据源和利用语言感知能力的挑战。这种方法的出现,解决了以往在处理大规模、复杂的数据集时,因为缺乏有效的语言感知工具和方法,而无法充分挖掘和利用数据...

Read More
2024-02-19 talkingdev

Dinosaur:全球大气建模的可微分动力学

Google团队发布了一款用于大气建模的代码,该代码被用作DeepMind最近的天气模拟工具的核心。该代码名为“Dinosaur”,是一种可微分动力学模型,可用于建立全球范围内的大气模型。这种技术可以帮助科学家更好地理解气候...

Read More
2023-12-25 talkingdev

CLIP-DINOiser,实现零样本语义分割

最近,研究人员提出了一种名为CLIP-DINOiser的新方法,它将CLIP模型的零样本能力与自监督特征相结合,从而实现了更好的语义分割,无需标注。CLIP-DINOiser方法使用了自监督任务DINO来学习图像特征,并将其与CLIP模型...

Read More
2023-11-10 talkingdev

Roboflow发布GPTV示例,辅助计算机视觉应用开发

Roboflow是一个计算机视觉工具包,通过可组合的代码片段使应用程序开发更加容易。现在,随着GPT-4 Vision进入OpenAI API,Roboflow团队已经制作了一些演示,展示如何与segment anything和DINO一起使用它。

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-09-01 talkingdev

评估计算机视觉模型的公平性:Meta发布DINO v2模型

在持续推动成为AI领域的开源贡献者的过程中,Meta公司近日公布了他们的DINO v2模型,并采用了更为宽松的许可证,允许社区在其基础上进行构建。此外,他们还发布了一个数据集,有助于确定并对各种计算机视觉模型中的...

Read More
2023-04-28 talkingdev

TextDeformer:使用文本引导进行几何形变

该研究介绍了一种技术,可以根据文本提示自动变形三角网格,利用可微分渲染和预训练图像编码器,如CLIP和DINO。通过使用雅可比矩阵进行网格变形表示,该方法实现了平滑变形,并避免了噪声梯度,从而实现了大的形状变...

Read More
2023-04-19 talkingdev

新技术发布:RT-DETR超越YOLO实现实时物体检测

以下是本次新技术发布的三个核心要点: - 实时物体检测一直是计算代价高昂的问题,而新的Real-Time Detection Transformer (RT-DETR)技术通过采用高效的混合编码器和IoU感知查询选择等优化策略,成功解决了这个问题...

Read More