微调的相关内容 - 漫话开发者

2023-06-16 talkingdev

新技术：改进型LoRA可快速微调大型模型

近日，研究人员推出了一种改进型的Low Rank Adaptation（LoRA）技术，可帮助研究和实践社区更有效地微调大型模型。以下是本次发布的主要内容： - LoRA被广泛应用于研究和实践社区，作为一种参数高效的微调大型模型...

2023-06-06 talkingdev

近日，一项名为ViCo的新技术问世，其可以根据文本描述生成逼真的图像，并且能够从仅有的几个样本中捕捉到新概念的细节。与其他方法不同，ViCo对系统资源的消耗较小，不需要对原始模型的参数进行微调，但它仍然通过专...

2023-06-06 talkingdev

本文介绍了一个名为"QLoRA"的开源代码库，旨在支持论文"QLoRA: Efficient Finetuning of Quantized LLMs"，该论文旨在民主化LLM研究的资源获取。 ## 三个核心要点： - QLoRA是一个开源代码库，支持LLM研究领域的民...

2023-05-26 talkingdev

## 新闻内容: 最近的一项研究发现，小模型在算术方面甚至可以击败GPT4，这一发现令人惊喜。具体来说，已经有许多强大的基础模型被用于算术任务的微调，但是llama tokenizer（将数字分割成单个数字）在算术方面的优...

2023-05-26 talkingdev

在本指南中，我们将介绍如何使用Lit-Parrot对自定义数据集进行LLMs的微调。Lit-Parrot是一个基于nanoGPT的实现GPT-NeoX模型的工具，支持StableLM、Pythia和RedPajama-INCITE模型权重。下面是三个重点： - Lit-Par...

2023-05-25 talkingdev

在技术领域中，微调是一种比完全微调更便宜的模型微调方式。它通过仅更新模型的一个小而精心选择的子集来工作。然而，即使如此，在普通硬件上微调大型（超过13B参数）模型的成本仍然太高。量化减少了模型中参数的精...

2023-05-22 talkingdev

研究人员设计了一种新方法，使用虚拟模拟器为语言模型提供“具身体验”，以培养其对真实世界的理解和规划能力。这种新方法显著提高了模型的能力，使得小型模型的表现与 ChatGPT 等大型模型相当甚至更好。 ## 三个核心...

2023-05-22 talkingdev

HuggingFace发布了新的研究成果，使得在普通硬件上能够完成对65B参数模型的微调。这项研究使得量化技术不再局限于推理阶段，而是可以应用于训练过程中，从而大幅减少了模型所需空间。以下是该研究的三个核心点： -...