小模型的相关内容 - 漫话开发者

2024-06-03 talkingdev

muP：提升稀疏模型训练性能的革命性工具

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...

2024-01-22 talkingdev

Sakana.ai正在东京建立世界级研究实验室，以建立更小、更高效的基础模型。该公司由前谷歌研究员David Ha和Llion Jones创立，他们负责转型、世界模型和LoRA等突破性技术。它已获得了来自Lux Capital的Brandon Reeves...

2023-12-05 talkingdev

在知识蒸馏和初始化方面已经做了大量的工作，例如“彩票假设”。这项工作提供了一种简单的机制，可以从一个更大的模型中初始化一个更小的模型。这显著提高了较小模型的性能。

2023-10-27 talkingdev

本研究介绍了LLM-FP4，这是一种新的方法，通过在训练后将大型语言模型的权重和操作转换为4位浮点值来压缩它们。近年来，由于NLP任务的快速发展，语言模型的大小和计算需求不断增加，这给模型的部署和使用带来了很多...

2023-10-19 talkingdev

大规模训练中的不稳定性对于大多数研究人员来说很难复制。一项新论文展示了如何在小模型中重现这些不稳定性，并验证了许多常见的修复方法在这些小模型上同样有效。该论文的作者认为，这样做有助于提高大规模训练的可...

2023-09-28 talkingdev

大型语言模型在许多设备上的运行效率受限于其庞大的计算需求。然而，一个名为QA-LoRA的新方法已经成功改变了这一局面。QA-LoRA通过巧妙地改变模型的构建和微调方式，使得大型语言模型能够在维持强大功能的同时，有效...

2023-08-21 talkingdev

贝叶斯流网络是一种新颖的架构和训练算法。这是一份简洁、非官方的论文复制品。目标是构建一个可以扩展到GPT-2大小模型的代码库。贝叶斯流网络的出现，为深度学习模型的训练带来了新的可能性，其独特的结构和训练方...

2023-06-26 talkingdev

最近有关GPT-4的消息称，GPT-4并不是一个大型模型，而是由多个小模型组成的混合体。这一消息尚未得到官方确认，但已经引起了广泛关注。GPT-4是由OpenAI开发的一种语言模型，能够生成高质量的自然语言文本。目前，GPT...