漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-12 talkingdev

DeepMind推出革命性图像-文本模型TIPS,刷新多领域性能标杆

DeepMind近日发布了名为TIPS的新型图像-文本模型,专为密集型和全局视觉任务设计。该模型通过结合对比学习与掩码图像建模技术,并利用合成字幕进行训练,显著提升了空间感知能力。在多项基准测试中,TIPS的表现均超...

Read More
2023-07-17 talkingdev

Meta发布新型文本-图像-文本模型

Meta最近发布了一种新型模型,该模型的工作原理与GPT系列的解码器仅Transformer相似,都是一次预测一个令牌。然而,如果你将交错的文本和图像视为令牌,这种模型就可以从文本生成图像,反之亦然。更令人惊奇的是,该...

Read More