视觉模型的相关内容 - 漫话开发者

2024-05-16 talkingdev

EfficientTrain++，提升基础模型训练速度新策略

近日，EfficientTrain++推出了一种新颖的课程学习策略，显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉，这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...

2024-05-06 talkingdev

最近，科技领域出现了一种全新的数据集和训练视觉语言模型，它能够在多图之间实现更高质量的指令跟踪。这种新的训练模型采用先进的视觉语言处理技术，可以识别并理解图片中的信息，并根据这些信息生成相应的指令。这...

2024-04-15 talkingdev

近期，科技界发起了一项名为BabyLM的挑战，旨在推动研究人员和开发者在极度有限的数据条件下，训练出性能卓越的文本和视觉模型。这一挑战的核心理念是模仿人类婴儿在成长初期所接触到的数据量，大约为1000万个token...

2024-04-15 talkingdev

xAI公司近日宣布，其最新旗舰模型Grok-1.5已具备视觉功能，与现有最先进模型相比肩，甚至在某些方面超越。Grok-1.5的推出，标志着xAI在人工智能视觉识别领域迈出了重要一步。该模型利用深度学习技术和大量图像数据进...

2024-03-20 talkingdev

MineDreamer是一款AI代理，它通过结合先进的语言和视觉模型，擅长在Minecraft世界中执行复杂的指令。这一创新技术使得AI能够更好地理解玩家的意图，并在游戏中实现精准的操作。MineDreamer的成功不仅仅是在执行指令...

2024-03-14 talkingdev

MoAI是一种新型的大型语言和视觉模型，它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布，旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法，可以...

2024-02-06 talkingdev

Ollama最近发布了对视觉模型的支持。Llava 1.6版本更新了支持，包括Python和JavaScript包中的视觉功能。

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。