漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-05-09 talkingdev

新型注意力机制提升网页理解能力

近日,研究人员开发出新的维基百科网页套件(WikiWeb2M),旨在提高多模态网页理解能力,该套件包含200万个网页和一种特殊的注意力机制,可提高生成描述、总结部分和创建上下文图像标题等任务的性能。 ## 主要内容...

Read More
2023-05-09 talkingdev

轻量级多模态适配器能帮助AI模型更好地理解图像和语言

### 新闻内容: 研究人员创建了一个名为Cola的基准测试,以测试和改进AI模型在组合推理方面的表现。他们发现,当前的AI模型在组合物体和它们的特征方面仍存在困难。而轻量级多模态适配器可以帮助模型更好地理解图像...

Read More
2023-05-01 talkingdev

ChatVideo: 一种多模态视频理解系统

## 新闻内容: ChatVideo是一个原型系统,用于多功能和多模态视频理解,采用基于轨迹的范式和视频基础模型(ViFMs)来注释属性。这种方法在解决现实场景中的各种视频相关问题方面表现出有效性。 ### 三个核心要点: - C...

Read More
2023-04-26 talkingdev

全稀疏融合技术提高3D物体检测效率

以下是本文的主要内容: - 本文研究了如何将图像模态整合到全稀疏架构中,以实现高效的远程3D检测。 - 该方法使用实例查询将2D实例分割与基于LiDAR的3D分割进行融合,从而实现了nuScenes和Argoverse 2数据集上的最...

Read More
2023-04-20 talkingdev

机器学习:使用视觉指令调整大型语言模型

本文介绍了一篇新的论文,提出使用机器生成的指令跟踪数据来调整大型语言模型(LLMs)以执行多模态任务。该论文开发了LLaVA,这是一个大型多模态模型,它结合了视觉编码器和仅限于语言的GPT-4。经过调整后,LLaVA展...

Read More
  1. Prev Page
  2. 27
  3. 28
  4. 29