漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-03 talkingdev

论文:随机颜色擦除提升计算机视觉模型鲁棒性

研究人员开发了一种名为随机颜色擦除的新学习策略,旨在解决计算机视觉中的颜色偏差问题。该方法通过从训练数据中选择性地移除颜色信息,平衡颜色与其他特征的重要性,从而提高模型在复杂场景中的表现,如广域监控和...

Read More
2024-05-28 talkingdev

全新视觉语言模型Meteor开源:多维度推理提升理解能力

近日,一个名为Meteor的新型高效大规模语言和视觉模型项目在GitHub上发布。Meteor模型通过引入多维度推理机制,大幅提升了理解和回答复杂问题的能力。该模型的设计旨在解决现有视觉语言模型在处理复杂场景时的局限性...

Read More
2024-05-16 talkingdev

EfficientTrain++,提升基础模型训练速度新策略

近日,EfficientTrain++推出了一种新颖的课程学习策略,显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉,这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...

Read More
2024-05-06 talkingdev

Mantis-训练视觉模型新进展,单图和多图指令调整

最近,科技领域出现了一种全新的数据集和训练视觉语言模型,它能够在多图之间实现更高质量的指令跟踪。这种新的训练模型采用先进的视觉语言处理技术,可以识别并理解图片中的信息,并根据这些信息生成相应的指令。这...

Read More
2024-04-15 talkingdev

BabyLM挑战赛:探索用婴儿级数据训练顶级文本与视觉模型

近期,科技界发起了一项名为BabyLM的挑战,旨在推动研究人员和开发者在极度有限的数据条件下,训练出性能卓越的文本和视觉模型。这一挑战的核心理念是模仿人类婴儿在成长初期所接触到的数据量,大约为1000万个token...

Read More
2024-04-15 talkingdev

xAI发布Grok-1.5视觉预览,性能媲美顶尖模型

xAI公司近日宣布,其最新旗舰模型Grok-1.5已具备视觉功能,与现有最先进模型相比肩,甚至在某些方面超越。Grok-1.5的推出,标志着xAI在人工智能视觉识别领域迈出了重要一步。该模型利用深度学习技术和大量图像数据进...

Read More
2024-03-20 talkingdev

MineDreamer:AI在Minecraft世界的指令执行Agent

MineDreamer是一款AI代理,它通过结合先进的语言和视觉模型,擅长在Minecraft世界中执行复杂的指令。这一创新技术使得AI能够更好地理解玩家的意图,并在游戏中实现精准的操作。MineDreamer的成功不仅仅是在执行指令...

Read More
2024-03-14 talkingdev

MoAI:整合视觉任务信息的增强型语言模型

MoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page