漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-01 talkingdev

OpenAI 未来计划:Sam Altman分享路线图

## 新闻内容: OpenAI 的 CEO Sam Altman 分享了公司的路线图,其中包括以下亮点: - 推出更便宜、更快速的 GPT4 - 增加更长的上下文窗口 - 推出更精细的 API 和有状态的 API - 在 2024 年实现多模态 ## 三大要点:...

Read More
2023-05-31 talkingdev

多模态语言模型生成图像

## 新闻内容: - 近来,多种数据类型的多模态训练变得越来越受欢迎。 - 模型架构通常需要复杂且有点脆弱的解决方案。 - Gill是一个很酷的新项目,它将文本标记与图像标记交错使用,从而实现真正的多模态输入和输出...

Read More
2023-05-17 talkingdev

探索多模态泛化:提高动作识别技术

近期,一项新研究提出了一种新的概念——多模态泛化(MMG),用于解决当特定数据来源缺失或有限时系统如何适应的问题。该研究创建了一个名为MMG-Ego4D的新数据集,并开发了新的方法来增强系统的泛化能力,这可能会引导...

Read More
2023-05-16 talkingdev

Meta公司推出多模态AI模型ImageBind

Meta公司的ImageBind是一种多模态AI模型,可以根据文本描述生成图片,也可以根据图片生成文本描述。该模型使用互联网上的各种文本和图片进行训练,因此具有很高的准确性和多样性。但是,该模型有时可能会产生不相关...

Read More
2023-05-09 talkingdev

新型注意力机制提升网页理解能力

近日,研究人员开发出新的维基百科网页套件(WikiWeb2M),旨在提高多模态网页理解能力,该套件包含200万个网页和一种特殊的注意力机制,可提高生成描述、总结部分和创建上下文图像标题等任务的性能。 ## 主要内容...

Read More
2023-05-09 talkingdev

轻量级多模态适配器能帮助AI模型更好地理解图像和语言

### 新闻内容: 研究人员创建了一个名为Cola的基准测试,以测试和改进AI模型在组合推理方面的表现。他们发现,当前的AI模型在组合物体和它们的特征方面仍存在困难。而轻量级多模态适配器可以帮助模型更好地理解图像...

Read More
2023-05-01 talkingdev

ChatVideo: 一种多模态视频理解系统

## 新闻内容: ChatVideo是一个原型系统,用于多功能和多模态视频理解,采用基于轨迹的范式和视频基础模型(ViFMs)来注释属性。这种方法在解决现实场景中的各种视频相关问题方面表现出有效性。 ### 三个核心要点: - C...

Read More
2023-04-26 talkingdev

全稀疏融合技术提高3D物体检测效率

以下是本文的主要内容: - 本文研究了如何将图像模态整合到全稀疏架构中,以实现高效的远程3D检测。 - 该方法使用实例查询将2D实例分割与基于LiDAR的3D分割进行融合,从而实现了nuScenes和Argoverse 2数据集上的最...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page