多模态能力的相关内容 - 漫话开发者

2024-05-22 talkingdev

xAI致力于实现Grok多模态功能

Elon Musk的人工智能公司xAI正在提升其Grok聊天机器人的能力，使其能够支持多模态输入。此举将允许用户上传照片，并获得基于文本的回答。这一功能的加入不仅会拓宽Grok的应用场景，还将提高其在用户交互中的智能化水...

2024-05-15 talkingdev

OpenAI的最新研究成果GPT-4o的多模态能力，整合了视觉和语音技术，预示着人工智能与世界互动方式的重大进步。这为人工智能在日常生活中的普遍存在铺平了道路。GPT-4o的多模态能力，不仅能够理解文本信息，还能够理解...

2024-02-23 talkingdev

近日，一种名为ChartX的新工具发布在GitHub上，用于测试多模态大语言模型（MLLM）在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力，包括语言和视觉。该工具可以评估多种不...

2023-12-15 talkingdev

Gemini在各种视觉任务中比许多开放模型表现更好。它在相同任务中似乎与GPT-V竞争力十足。

2023-11-02 talkingdev

微软研究院已在其较小的语言模型Phi 1.5上增强了多模态能力，使其能够像OpenAI更大的GPT-4模型一样解释图像，但计算成本更低。Phi 1.5模型结合了文本和视觉信息，可以推断出对应的文本或图像。该模型在多个数据集上...