漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-03 talkingdev

MiniMax发布M3模型:百万级上下文窗口与开源权重承诺来袭

中国AI创企MiniMax近日正式推出了其最新一代的M3大语言模型,并通过API和Token计划向开发者开放。该模型最引人注目的特点之一是拥有高达100万token的超长上下文窗口,并且官方承诺API至少保证提供51.2万个token的处...

Read More
2026-06-02 talkingdev

英伟达发布Cosmos 3:物理AI开源基础模型,融合视觉推理与多模态生成

英伟达今日正式发布Cosmos 3,这是一款面向物理AI的开源世界基础模型,标志着AI在理解与生成物理世界能力上的重大突破。Cosmos 3采用了创新的混合专家变换器(Mixture-of-Transformers)架构,将视觉推理、世界生成...

Read More
2026-06-02 talkingdev

视频智能体模型是下一波浪潮 — xAI Grok Imagine 负责人 Ethan He 深度解读

在生成式AI的激烈竞争中,视频生成与世界模型正成为下一个前沿战场。Ethan He,这位曾领导NVIDIA Cosmos世界模型项目的核心人物,在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

Read More
2026-06-02 talkingdev

Qwen3.7-Plus发布:统一视觉与语言的通用多模态智能体模型

阿里巴巴通义千问团队近日发布了其最新的多模态智能体模型Qwen3.7-Plus,标志着通用人工智能在感知与行动融合层面迈出了重要一步。该模型将视觉识别与语言理解能力深度融合,构建了一个单一、通用的多模态智能体基础...

Read More
2026-05-25 talkingdev

Netflix如何利用多模态AI革新视频搜索:从海量素材到精准定位

Netflix正借助多模态AI技术,彻底改变其视频搜索与内容管理方式。平台允许编辑人员通过运行多个专门的AI模型(包括角色识别、场景分类、对话分析和物体检测),对数以千计的原始视频素材进行高效检索。其核心技术架...

Read More
2026-05-21 talkingdev

开源|字节跳动Lance:3B参数原生统一多模态模型,图像视频理解与生成编辑全搞定

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型,以其仅3B(30亿)激活参数的设计,在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务(如图像理解、视频生成、图像编辑等)分别...

Read More
2026-05-19 talkingdev

阿里Qwen3.7预览版登陆Arena,文本与视觉双赛道排名飙升

阿里巴巴通义千问团队近日在Arena平台上发布了Qwen3.7预览版,涵盖文本和视觉两大核心能力。据悉,Qwen3.7 Max Preview在文本竞技场中位列第13名,而Qwen3.7 Plus Preview则在视觉竞技场中排名第16,显示出阿里在大...

Read More
2026-05-12 talkingdev

Thinking Machines Lab发布交互模型:实时人机协作的可扩展新范式

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page