DeepMind突破视觉语言模型预训练规模,1000亿图像助力全球任务性能提升
talkingdev • 2025-02-13
27114 views
DeepMind近期在视觉语言模型(VLM)预训练领域取得了重大突破,将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试,显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于饱和,但模型在全球范围内的任务表现持续提升。值得注意的是,这种提升在现有基准测试中往往难以被捕捉到,表明现有评估体系可能无法全面反映模型的实际能力。这一进展为未来多模态AI技术的发展提供了新的方向。
核心要点
- DeepMind将视觉语言模型预训练数据规模提升至1000亿张图像。
- 模型在全球多样化任务中的表现持续提升,但现有基准测试未能充分反映这一进展。
- 西方中心化任务的性能已趋于饱和,凸显了全球任务优化的重要性。