微信扫码实时跟踪AI前沿
DeepMind近日发布了名为TIPS的新型图像-文本模型,专为密集型和全局视觉任务设计。该模型通过结合对比学习与掩码图像建模技术,并利用合成字幕进行训练,显著提升了空间感知能力。在多项基准测试中,TIPS的表现均超...
Meta最近发布了一种新型模型,该模型的工作原理与GPT系列的解码器仅Transformer相似,都是一次预测一个令牌。然而,如果你将交错的文本和图像视为令牌,这种模型就可以从文本生成图像,反之亦然。更令人惊奇的是,该...