多模态技术的相关内容 - 漫话开发者

2025-06-23 talkingdev

Character.AI任命前Meta高管Karandeep Anand为新任CEO，加速多模态娱乐领域布局

人工智能交互平台Character.AI近日宣布重大人事变动，前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问，此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家，An...

2025-05-21 talkingdev

谷歌正在向所有美国用户推出搜索中的AI模式，这一更新将带来更深层次的多模态搜索体验。该模式结合了先进的推理能力、后续问题追问功能以及快速生成的AI概述，显著提升了搜索的交互性和信息获取效率。这一技术突破不...

2025-05-12 talkingdev

苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法，旨在优化视觉语言模型（VLM）中的视觉信息处...

2025-04-03 talkingdev

本文梳理了2024年以来最具影响力的AI模型，深入解析其技术特性与应用场景。OpenAI推出的GPT-4.5 Orion凭借其强大的世界知识建模能力成为通用AI领域的标杆；Google的Gemini 2.5 Pro则专注于代码生成与理解，为开发者...

2025-03-18 talkingdev

MMS-LLaMA是一款高效的多模态语音大语言模型框架，专注于自动视觉语音识别（AVSR），在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据，提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...