低成本训练的相关内容 - 漫话开发者

2025-05-20 talkingdev

[开源]基于AWS低成本微调Qwen2.5B模型实现推理能力突破

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案，该方案采用SFT（监督微调）结合GRPO（梯度反向传播优化）的混合训练框架，其技术路线受到DeepSeek R1架构启发，并针对AWS云平台进行了专项优化...

2025-05-04 talkingdev

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案，允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法，显著降低了分布式训练的硬件门槛，使中小型研究团队也能...

2025-04-15 talkingdev

字节跳动团队最新发布的论文展示了如何在655k H100小时的“适度”计算预算下，训练出一个具有竞争力的70亿参数视频生成模型Seaweed-7B。该模型在多项时间敏感任务中表现出色，展现了强大的视频生成能力。这一突破不仅...

2025-03-14 talkingdev

Open Sora项目自模型首次发布以来，一直在积极推进，并以低于20万美元的成本训练出了一个具有竞争力的模型。此次，项目团队全面公开了所有代码和模型权重，旨在帮助研究人员和开发者复现其实验结果。尽管模型的动态...

2025-02-21 talkingdev

梁文峰，一位对冲基金经理，推出了自筹资金的开源AI平台DeepSeek，该平台因其创新的LLM（如DeepSeek-R1）而迅速获得全球关注，这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法，并兼容消费级硬...