图像处理的相关内容 - 漫话开发者

2023-11-13 talkingdev

LM4Visual-基于AI文本模型来进行视觉任务

研究人员发现，尽管大型语言模型是为文本设计的，但它们可以成为处理视觉任务的强大工具。使用文本训练的模型的部分来直接处理图像和视频，研究人员在各种视觉任务中取得了改进的结果。该研究结果表明，基于文本的AI...

2023-10-27 talkingdev

研究介绍了RGM（Robust Generalist Matching）,这是一种专为图像中的稀疏和密集像素匹配而设计的深度学习模型。该方法利用了一种独特的级联GRU模块和一个新的大规模数据集。该模型可以应用于多种场景，具有广泛的适...

2023-10-17 talkingdev

MosaicFusion是一款神奇的工具，可以创建许多对象的新图片，而无需任何先前的学习。它分两步完成：首先制作图片，然后创建一个遮罩，显示每个对象的位置。

2023-10-11 talkingdev

近日，Adobe发布了Photoshop的官方网络版本，这一版本配备了由Firefly提供动力的AI工具。这些AI工具将为用户提供更多创新的图像编辑功能，使Photoshop成为一个更加全面和强大的图像处理平台。Adobe的这次升级反映出...

2023-10-04 talkingdev

多模态大型语言模型在许多任务中表现优秀，但在定位图像中的特定对象方面往往存在困难。为了改善这一问题，研究人员已经开发出一种新的方法：将物体的位置转化为文本，并通过特殊任务进行模型的训练。这种方法的出现...

2023-10-04 talkingdev

视觉-语言模型如CLIP在许多任务中表现出色，但在图像修复方面却面临一些挑战。因此，一项新的项目引入了DA-CLIP模型，该模型优化了CLIP的工作方式，使其更好地处理这些任务，从而带来更清晰的图像重建。DA-CLIP模型...

2023-10-03 talkingdev

近年来，Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件，并为该文件生成文本或标记。这与最近Meta为...

2023-10-03 talkingdev

光流技术是帮助我们理解图像中物体运动的重要技术。一项新的研究利用高斯注意力(Gaussian Attention)，专注于更细微的细节并更好地将它们匹配起来，从而研发出了一个名为GAFlow的模型。高斯注意力的使用，可以使光流...