漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-09 talkingdev

MobileVLM,为移动设备量身打造的先进视觉语言模型

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

Read More
2024-02-07 talkingdev

论文:多模态AI幻觉,解读视觉语言模型的错误描述现象

本篇论文揭示了大型视觉语言模型(LVLMs)为什么有时会错误地描述图像的原因,这种现象被称为多模态幻觉。语义转移偏差,特别是在段落中断处,是一个关键因素。研究人员发现,模型可能会出现误导性的预测,这些预测...

Read More
2024-02-02 talkingdev

Llava 1.6发布,OCR、推理和世界知识得到改进

Llava是一种视觉语言模型,最新版本为1.6,经过改进后,其OCR、推理和世界知识等方面有了很大提升,甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型,以便更多人能够使用。

Read More
2024-01-09 talkingdev

用提示增强的视觉语言模型开源

这项项目介绍了一种方法,可以适应各种任务的类似CLIP的视觉语言模型,同时保留其泛化能力。该方法从LLM数据中学习提示,避免了需要标记图像的需求。

Read More
2023-11-15 talkingdev

使用视觉语言模型实现自主驾驶

本报告评估了GPT-4V在自主驾驶中的应用,重点关注其在场景理解、决策制定和实时响应方面的能力。GPT-4V是一种基于视觉语言模型的人工智能技术,能够自动识别和理解图像中的物体、道路、标志和其他要素,并作出相应的...

Read More
2023-11-15 talkingdev

论文:保护视觉语言模型的水印方法

在深度学习领域中,视觉语言模型(VLM)越来越受到重视。由于Embedding as a Service Vision-Language Pre-Trained Models(VLPM)中的预训练模型包含了大量的视觉和语言信息,因此这种模型很容易成为恶意攻击的目标...

Read More
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-11-09 talkingdev

CogVLM-17B开放式视觉语言模型

CogVLM-17B是一个开放式的视觉语言模型,具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色,并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型,将为计算机视觉和自然语言处理领域的发...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page