漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-02 talkingdev

微软通过重大突破推动小型AI模型的界限

微软研究院已在其较小的语言模型Phi 1.5上增强了多模态能力,使其能够像OpenAI更大的GPT-4模型一样解释图像,但计算成本更低。Phi 1.5模型结合了文本和视觉信息,可以推断出对应的文本或图像。该模型在多个数据集上...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-10-25 talkingdev

谷歌AI产品泄密:多模态Gemini和革命性应用原型设计功能Stubbs

谷歌将用多模态AI模型Gemini取代PaLM 2,并将其引入Makersuite,提供图像和文本识别功能。该公司还拥有一个名为Stubbs的隐藏工具,使用户可以构建和启动AI生成的应用原型。Makersuite将很快完全支持语言翻译。

Read More
2023-10-23 talkingdev

SoM开源,多模态语言模型的新进展

多模态语言模型(multimodal language models)的发展正日益成熟。最近,一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理,对检测到的类别...

Read More
2023-10-20 talkingdev

Fuyu-8B:面向AI Agent的多模态架构

HuggingFace 上现已推出 Fuyu-8B,这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是,它具有简化的架构,并支持任意图像分辨率,在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序,Fuyu-8B...

Read More
2023-10-17 talkingdev

Ex-MCR:无配对数据的多模态学习方法

这项研究介绍了一种名为Ex-MCR的新方法,该方法可以有效地学习多个模态的统一对比表示,而无需配对数据。通过对齐现有的多模态对比表示,Ex-MCR在音频-视频检索和3D物体分类等任务中实现了最佳性能。该方法在GitHub...

Read More
2023-10-13 talkingdev

whispering-llama:最新开源多模态融合技术以增强语音识别

研究人员开发了一种新技术,将声音信息和语言数据结合起来,纠正自动语音识别系统中的错误。该技术基于交叉模态融合,使用视觉和语言信息来提供更准确的识别结果。此外,该技术还可以提供更好的语音合成能力。研究人...

Read More
2023-10-13 talkingdev

多模态前沿模型的深度探究

本文深入探究了当前围绕多模态语言模型的研究活动。随着人工智能和自然语言处理领域的不断发展,多模态模型在语言理解、生成和预测等方面已经取得了很大的进展。本文介绍了多模态模型的基本原理,以及当前最先进的多...

Read More
  1. Prev Page
  2. 10
  3. 11
  4. 12
  5. Next Page