漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-24 talkingdev

MINT-1T-拥有万亿令牌的多模态数据集

研究人员宣布了一个新的数据集,其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据,并可用于训练人工智能算法。通过使用这个数据集,研究人员可以更好地理解人类语言和视觉系统的工作...

Read More
2024-07-18 talkingdev

论文:立体匹配的深度估计方法,视频立体匹配增强深度估计

科研人员最近提出了一种新的视频立体匹配方法,该方法通过确保时间连续性,增强了深度估计的能力。立体匹配是计算机视觉中的一个核心任务,主要用于恢复场景的深度信息。新的立体匹配方法在处理视频内容时,特别强调...

Read More
2024-03-19 talkingdev

论文:视觉变换器技术助力水下机器人目标检测能力提升

最新研究项目YOLOX-ViT在水下机器人领域中引入了一种创新的目标检测方法,该方法通过整合视觉变换器(Visual Transformers)和知识蒸馏(Knowledge Distillation)技术,显著提高了目标检测的准确性和效率。该技术的...

Read More
2024-01-03 talkingdev

图像伪造可影响人类感知,AI视觉系统与人类感知的相似性和差异性探究

近年来,人工智能技术的发展趋势,使得图像处理技术得以广泛应用,如在自动驾驶、安保领域等。然而,一些研究表明,AI视觉系统与人类感知存在差异。 研究人员发现,图像伪造可影响人类感知,同时也可能误导AI视觉系...

Read More
2023-12-20 talkingdev

Google Vision开源权重分片,提升多节点系统训练效率

Google的Big Vision项目是一个研究和生产最先进的视觉系统的重要工具库。最近,他们添加了权重分片,使得在多节点系统上的训练更加容易。这个新功能可以将模型分成多个子模型,分别在不同的节点上进行训练,最后再将...

Read More
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-08-15 talkingdev

DatasetDM,计算机视觉合成图像生成崛起

该项目引入了一种名为DatasetDM的新工具,它可以生成无尽的虚假图像,并附带详细的标签,比如哪部分是哪个对象或者图像中的物体离得有多远。这对于训练计算机视觉系统非常有用,仅使用一小部分真实照片,合成的图像...

Read More