微调的相关内容 - 漫话开发者

2023-10-11 talkingdev

Agent完全指南：LLMs与智能应用的革命

人工智能驱动软件的下一步演变并非聊天机器人，而是利用LLMs来完成实际工作的应用。AI基础设施联盟的此篇电子书全面覆盖了此领域的各个方面，包括Prompt工程、LLM逻辑和推理、主要框架如LlamaIndex、LangChain、Hays...

2023-10-06 talkingdev

在多GPU和多节点系统上训练语言模型存在多种挑战，且在这些场景下积累经验也非常困难。本篇博客文章详尽深入地研究了ZeRO，FSDP，以及在大规模训练或微调模型时可能遇到的问题。我们需要理解，进行分布式训练并不仅...

2023-10-04 talkingdev

AI生成技术正在重塑我们对大量数据收集的传统价值观。大型语言模型可以通过最小化的数据进行微调，甚至可以生成合成数据集，这使得专有数据的独特性和重要性可能正在逐渐减弱。在过去，我们通常认为数据量的大小和独...

2023-10-03 talkingdev

语言模型的性能往往受到其上下文长度的限制。一般来说，上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM（Github Repo）提供了一种算法更新，通过将令牌流式传输至注意力机制，理论上可以支持无限...

2023-09-29 talkingdev

模型通常针对特定任务（例如，语言生成和图像生成）进行单独训练。然而，最近提出的一种名为联合自回归混合（JAM）的算法，通过巧妙地交叉注意力和温和的微调，成功地将不同的模型结合在一起。这种新颖的方法在多种...

2023-09-29 talkingdev

Meta公司新推出的Emu图像生成模型已在用户偏好调查中超越SDXL。Emu模型是在11亿图像对上进行预训练的，只在几千张精心策划的图像上进行了微调。此模型将作为Meta新AI助手计划的主要支柱。Emu的高效性能，证明了大规...

2023-09-28 talkingdev

大型语言模型在许多设备上的运行效率受限于其庞大的计算需求。然而，一个名为QA-LoRA的新方法已经成功改变了这一局面。QA-LoRA通过巧妙地改变模型的构建和微调方式，使得大型语言模型能够在维持强大功能的同时，有效...

2023-09-19 talkingdev

对预训练的视觉模型进行特定任务的微调，通常需要大量额外的计算能力。然而，研究人员已经提出了一种名为“显著通道调整”（SCT）的方法，这种方法可以智能地选择模型中需要微调的部分，使用的额外设置要远少于其他方...