漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-25 talkingdev

Netflix如何利用多模态AI革新视频搜索:从海量素材到精准定位

Netflix正借助多模态AI技术,彻底改变其视频搜索与内容管理方式。平台允许编辑人员通过运行多个专门的AI模型(包括角色识别、场景分类、对话分析和物体检测),对数以千计的原始视频素材进行高效检索。其核心技术架...

Read More
2026-05-21 talkingdev

开源|字节跳动Lance:3B参数原生统一多模态模型,图像视频理解与生成编辑全搞定

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型,以其仅3B(30亿)激活参数的设计,在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务(如图像理解、视频生成、图像编辑等)分别...

Read More
2026-05-12 talkingdev

Thinking Machines Lab发布交互模型:实时人机协作的可扩展新范式

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...

Read More
2026-05-01 talkingdev

论文推荐|GLM-5V-Turbo:多模态感知直接融入推理与工具调用,编程与视觉任务性能跃升

智谱AI团队发布的最新研究成果GLM-5V-Turbo,在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中,而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0:图像生成模型迎来重大升级,文本渲染与多模态推理能力显著提升

OpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段,其核心在于集成了一个先进的图像生成模型,该模型在多个关键技术指标上实现了显著突破。首...

Read More
2026-04-20 talkingdev

NVIDIA发布NEMOTRON OCR V2:基于合成数据的快速多语言OCR模型实现重大精度突破

NVIDIA近日在Hugging Face平台发布博客,介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练,通过构建包含mOSCAR文本和多样化字体的合成数据管道,生成了跨语言的像素级完美标...

Read More
2026-04-09 talkingdev

Meta发布Muse Spark:迈向个人超级智能的多模态推理与工具调用新模型

Meta公司近日正式推出了名为Muse Spark的新型多模态推理模型,标志着其在追求个人超级智能(Personal Superintelligence)的道路上迈出了关键一步。该模型集成了三大前沿技术能力:工具使用、视觉思维链以及多智能体...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page