漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-27 talkingdev

OpenAI的GPT-4虽然在视觉领域有所突破,但仍存在缺陷

尽管OpenAI在防止其GPT-4视觉模型破解CAPTCHAS以及基于年龄和种族估计人的年龄方面已经取得了一定的进步,但它仍然有时难以进行推理,并且仍然容易产生幻觉。这些问题暴露出,尽管我们在人工智能的发展和应用上取得...

Read More
2023-09-19 talkingdev

更高效的微调视觉变换器

对预训练的视觉模型进行特定任务的微调,通常需要大量额外的计算能力。然而,研究人员已经提出了一种名为“显著通道调整”(SCT)的方法,这种方法可以智能地选择模型中需要微调的部分,使用的额外设置要远少于其他方...

Read More
2023-09-01 talkingdev

评估计算机视觉模型的公平性:Meta发布DINO v2模型

在持续推动成为AI领域的开源贡献者的过程中,Meta公司近日公布了他们的DINO v2模型,并采用了更为宽松的许可证,允许社区在其基础上进行构建。此外,他们还发布了一个数据集,有助于确定并对各种计算机视觉模型中的...

Read More
2023-08-24 talkingdev

Clip4Cir开源-使用CLIP和标题改进图像搜索

该项目引入了一种搜索图像的方法,该图像看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的CLIP模型。该方法在FashionIQ和CIRR等流行的图像搜索数据集上表现更好。CLIP模型是一个多模态视觉模...

Read More
2023-08-24 talkingdev

Roboflow-最新开源的视觉模型推理工具

Roboflow推理是一种在最先进的计算机视觉模型上运行推理的工具。它可以在各种设备和环境上部署,无需机器学习的先验知识。Roboflow推理支持目标检测、分类、实例分割模型以及基础模型。有一个展示Roboflow推理在足球...

Read More
2023-08-22 talkingdev

RLIPv2:一个更优秀的语言视觉模型

RLIPv1是一种帮助计算机将图像与描述性词语相连接的方法,但是它存在一些问题,尤其是运行缓慢和数据缺乏。这篇新的论文介绍了RLIPv2,这是一个更快速的版本,它使用了一种新的工具ALIF来更好地融合图像和词语。同时...

Read More
2023-08-17 talkingdev

强化学习:微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型(甚至视觉模型)最好的工具。然而,当你需要大量的人类数据来训练一个奖励模型时,这就成为了一项挑战。如果你可以只使用“提示”呢?这是RLCF(强化学习计算框架)趋势的又一绝佳...

Read More
2023-07-05 talkingdev

基于代码的计算机视觉研究平台(GitHub代码库)

Scenic是一个以注意力为核心的计算机视觉研究代码库。

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page