漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-21 talkingdev

开源|字节跳动Lance:3B参数原生统一多模态模型,图像视频理解与生成编辑全搞定

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型,以其仅3B(30亿)激活参数的设计,在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务(如图像理解、视频生成、图像编辑等)分别...

Read More
2026-05-06 talkingdev

12百万token上下文窗口被打破:Subquadratic发布超长上下文AI模型

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日,初创公司Subquadratic宣布推出一款全新的AI模型,其上下文窗口达到了惊人的1200万token(约合1200万个单词或代码标记),远超过当前主流模...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-02-27 talkingdev

Cardboard-基于自然语言的AI视频编辑器,让剪辑像对话一样简单

近日,由Saksham和Ishan共同创立的YC W26项目Cardboard正式亮相,这是一款革命性的AI视频编辑工具。用户只需用自然语言描述需求,如“从这段原始素材中制作一个60秒的回顾”或“将其剪成20秒的广告”,Cardboard便能自动...

Read More
2025-07-24 talkingdev

TimeScope:你的视频大模型能处理多长的视频?

TimeScope是一个全新的开源基准测试工具,专门用于评估视觉大模型在处理长视频方面的能力。它不仅测试模型的检索能力,还涵盖了视频合成、时间定位以及细粒度运动分析等多个维度,从而提供对模型时间理解能力的全面...

Read More
2025-05-13 talkingdev

Hugging Face发布Vision Language Models最新进展:更小架构实现更强多模态能力

Hugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明,通过架构优化,新一代模型在保持较小参数量的同时,显著提升了多模态理解能力。这些进步主要体现在三个方面:复杂场景的推理能力、动态...

Read More
2025-04-29 talkingdev

Valeo AI推出VaViM和VaVAM:生成式视频模型革新自动驾驶轨迹预测

Valeo AI最新发布了两项突破性技术:VaViM自回归视频模型和VaVAM驾驶轨迹预测模型。VaViM通过时空令牌序列预测技术,实现了对连续视频帧的高精度建模;而VaVAM则创新性地将学习到的视频表征通过模仿学习转化为可执行...

Read More
2025-04-21 talkingdev

[开源]VistaDPO通过分层优化实现视频文本对齐,提升多维度偏好学习

VistaDPO项目通过创新的分层优化方法,在视频与文本对齐领域取得重要突破。该项目构建了一个包含7200个样本的全新数据集,专门用于优化空间和时间维度的偏好学习。其核心技术在于采用分层次的优化策略,能够同时处理...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page