"深度学习"的相关内容 - 漫话开发者

2024-04-10 talkingdev

使用Colab在H100上训练超过20万上下文窗口的新梯度累积卸载技术

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...

2024-04-10 talkingdev

Visual Autoregressive Models是一个新的GitHub项目，它将图像生成视为逐步预测更高分辨率的过程。该代码库包含了用于下一分辨率预测工作的推理脚本和演示笔记本。虽然训练代码将很快公开，但目前该项目已经引起了技...

2024-04-09 talkingdev

近期，Andrei Karpathy推出了一个名为llm.c的项目，该项目展示了如何使用C和CUDA编程语言来训练大型语言模型（LLM）。这一创新方法避免了对PyTorch等大型深度学习框架的依赖，尤其是其所需的250MB以上的资源。这种训...

2024-03-27 talkingdev

SegRefiner作为一种创新的模型无关解决方案，通过将细化过程视为数据生成过程，显著提升了各种分割任务中的对象掩膜质量。该技术通过离散扩散过程逐像素细化粗糙掩膜，从而提高分割和边界指标的精确度。这一方法的核...

2024-03-26 talkingdev

PSALM是大型多模态模型（LMM）的扩展版本，通过引入一个掩码解码器和多功能输入模式，在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制，而且还使模型能够有效理解和分类复杂图像。PSALM的创...

2024-03-22 talkingdev

两年后，人工智能领域的怀疑论者Gary Marcus再次审视他的预测并坚持他最初的看法。尽管像GPT-4这样的进步令人瞩目，但像真正的理解力和值得信赖的AI这样的根本问题仍未解决。Marcus总结认为，仅靠增加数据量和计算能...

2024-03-15 talkingdev

这项工作表明，您可以单独训练模型，然后将它们合并成单个Mixture-of-Experts模型。

2024-03-06 talkingdev

SURE技术是一种将多种技术结合起来，提高深度神经网络对于图像分类任务中不确定性预测可靠性的新方法。该方法通过模型置信度估计、模型不确定性估计和置信度校准三个步骤来实现置信度的提高。SURE技术的应用将大大提...