DeepMind突破视觉语言模型预训练规模，1000亿图像助力全球任务性能提升

talkingdev • 2025-02-13

324382 views

DeepMind近期在视觉语言模型（VLM）预训练领域取得了重大突破，将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试，显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于饱和，但模型在全球范围内的任务表现持续提升。值得注意的是，这种提升在现有基准测试中往往难以被捕捉到，表明现有评估体系可能无法全面反映模型的实际能力。这一进展为未来多模态AI技术的发展提供了新的方向。

核心要点

DeepMind将视觉语言模型预训练数据规模提升至1000亿张图像。
模型在全球多样化任务中的表现持续提升，但现有基准测试未能充分反映这一进展。
西方中心化任务的性能已趋于饱和，凸显了全球任务优化的重要性。

DeepMind突破视觉语言模型预训练规模，1000亿图像助力全球任务性能提升

核心要点

Related posts