大规模模型的相关内容 - 漫话开发者

2025-02-24 talkingdev

首个基于Muon优化器训练的大规模模型Moonlight 16B发布

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2025-02-13 talkingdev

近期，DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习（RL）训练，成功开发出一款1.5B参数的模型，其性能超越了O1-Preview。研究团队采用了一种独特的方法，即在RL训练过程中逐步增加上下文长度，从而...

2024-12-15 talkingdev

字节跳动近期发布了一项名为'Byte Latent Transformer'的新型算法，在大规模模型训练中，采用了Patch而非Token作为基本的处理单元。该算法对于图像和视频内容的理解与分析展现出了卓越的性能，尤其适用于处理高分辨...

2024-12-05 talkingdev

近日，Genie 2项目公开了其最新进展，旨在打造一个大规模的基础世界模型。Genie 2通过整合大规模语言模型（LLM）与先进的知识嵌入技术，创建了一个能够理解和预测世界运作的复杂系统。这个模型不仅能够处理自然语言...

2024-09-24 talkingdev

近日，研究团队成功在AMD GPU上对Llama 405B进行了微调。这一进展不仅提升了模型的性能，也展示了AMD硬件在深度学习领域的潜力。通过针对特定任务的微调，Llama 405B在处理复杂自然语言处理任务时表现出色，证明了其...

2024-07-15 talkingdev

据报道，Meta平台将于7月23日发布其最大规模的Llama 3模型。这款模型具备4050亿个参数，能够理解并生成图像和文本。Llama 3模型的推出，将会大大提升Meta平台的功能性。据悉，此次发布的Llama 3模型是Meta平台迄今为...

2024-07-05 talkingdev

PTQ4SAM是一个新的框架，旨在减少大规模Segment Anything Model（SAM）的内存和计算需求。SAM是一个全新的大规模模型，但其大规模的特性也使得其在实际应用中面临着严峻的挑战，尤其是在内存和计算资源上的需求。而P...

2024-06-03 talkingdev

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...