OpenAI近日在API中正式推出了一系列全新的实时音频模型,标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型:GPT-Realtime-2,专注于增强对话式推理能力,能够实现更自然、更具逻辑性的实时语音对话;G...
Read More智谱AI团队发布的最新研究成果GLM-5V-Turbo,在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中,而非作为独立的预处理步骤。这意味着模型能够同时处理并理...
Read MoreNVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...
Read More来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型,该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调(instruction-tuning)的图像生成模型,Vision Banana能够在多种...
Read MoreOpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段,其核心在于集成了一个先进的图像生成模型,该模型在多个关键技术指标上实现了显著突破。首...
Read MoreNVIDIA近日在Hugging Face平台发布博客,介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练,通过构建包含mOSCAR文本和多样化字体的合成数据管道,生成了跨语言的像素级完美标...
Read MoreAnthropic Labs今日正式发布Claude Design,标志着生成式AI在专业视觉创作领域迈出关键一步。该产品基于Claude Opus 4.7多模态视觉模型构建,能够协助用户高效生成设计原型、商业演示文稿、营销单页等视觉内容。其核...
Read MoreMeta公司近日正式推出了名为Muse Spark的新型多模态推理模型,标志着其在追求个人超级智能(Personal Superintelligence)的道路上迈出了关键一步。该模型集成了三大前沿技术能力:工具使用、视觉思维链以及多智能体...
Read More