漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-03 talkingdev

OpenAI 重启机器人研究团队,探索多模态机器人模型

在停摆三年后,OpenAI 宣布重启其机器人研究团队。此举旨在开发多模态机器人模型,并改进核心的人工智能模型。OpenAI 的这一决定标志着其在机器人领域的再度发力,旨在通过多模态模型结合视觉、语音和动作等多种感知...

Read More
2024-05-22 talkingdev

xAI致力于实现Grok多模态功能

Elon Musk的人工智能公司xAI正在提升其Grok聊天机器人的能力,使其能够支持多模态输入。此举将允许用户上传照片,并获得基于文本的回答。这一功能的加入不仅会拓宽Grok的应用场景,还将提高其在用户交互中的智能化水...

Read More
2024-05-17 talkingdev

轻巧的视觉语言模型:Xmodel-VLM开源

Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用,这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法,它优化了视觉和语言之间的协同工...

Read More
2024-05-15 talkingdev

Google推出全新轻量级模型Gemini Flash,拥有多模态推理和高达百万Token上下文窗口

近日,Google发布了新的轻量级模型Gemini Flash。此模型具有多模态推理和高达一百万个符号的长上下文窗口。Google利用其先进的技术,使Gemini Flash在处理大量数据时保持了高效与精确。这种新型的轻量级模型将有助于...

Read More
2024-05-15 talkingdev

OpenAI的重大突破:GPT-4o的多模态能力

OpenAI的最新研究成果GPT-4o的多模态能力,整合了视觉和语音技术,预示着人工智能与世界互动方式的重大进步。这为人工智能在日常生活中的普遍存在铺平了道路。GPT-4o的多模态能力,不仅能够理解文本信息,还能够理解...

Read More
2024-05-15 talkingdev

Google I/O 2024新品发布:Gemini Flash、Veo视频生成、Imagen 3及最新助手Project Astra亮相

在2024年的Google I/O开发者大会上,Google发布了众多新功能,包括Gemini Flash、Veo视频生成、Imagen 3及其最新助手Project Astra。整体而言,这些改进数量惊人,包括扩大到2m的令牌上下文长度,大幅降低的模型价格...

Read More
2024-05-14 talkingdev

Pipecat:构建语音及多模态对话Agent框架

Pipecat是一个构建语音和多模式对话代理的框架。这个框架使开发者能够更便捷地创建和管理语音交互系统。多模式对话代理则是指可以处理多种类型输入(如文字、语音、图像等)的人工智能系统。Pipecat不仅适用于创建语...

Read More
2024-05-14 talkingdev

Text-Image组合与理解:InternLM-XComposer2视觉语言模型的突破

InternLM-XComposer2是一种在创建和理解复杂的文本-图像内容方面表现优异的视觉语言模型。该模型引入了一种名为Partial LoRA的新型方法,用以平衡视觉和文本的理解,其性能超越了现有的多模态内容创建和理解模型。通...

Read More
  1. Prev Page
  2. 10
  3. 11
  4. 12
  5. Next Page