模型性能的相关内容 - 漫话开发者

2024-01-23 talkingdev

提升视觉基础模型性能：ViSFT开源

针对图像-文本训练中使用的视觉基础模型，研究人员提出了一种名为ViSFT的新方法，以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先，该模型使用大规模的无监督预训练来学习图像...

2024-01-22 talkingdev

据悉，最近发布的Stablecode 3B模型表现出色，其强大的性能超过了7B的CodeLlama模型。同时，该模型的尺寸足够小，能够在MacBook上本地运行，无需像7B模型一样需要大量的计算资源。这一模型的发布，标志着技术领域的...

2024-01-20 talkingdev

Dolphin被广泛认为是可用性最强的未经审查的开放模型之一。它主要建立在Mixtral上。这个120B的模型是通过合并两个较小的Dolphin模型而制成的。研究发现，与Goliath 120B一起使用这种合并过程可以提高整体模型性能。

2024-01-15 talkingdev

本文探讨了不同核矩阵的特征值如何改变以及它对学习属性的影响。核矩阵是机器学习中常用的矩阵，用于描述数据的相似性。在本文中，我们将分析核矩阵的频谱特性，即特征值的变化，这对机器学习模型的性能有很大的影响...

2024-01-12 talkingdev

一种新的方法可以过滤高质量的配对偏好以进行对齐。它可以显著提高基准模型的性能。

2024-01-03 talkingdev

BERT是一种仅有编码器的Transformer。这意味着它通常用于以嵌入形式表示自然语言，而不是用于生成文本。重要的是，它是最早用于搜索的Transformer之一，因为它可以表示查询和要检索的信息。Mosaic团队集成了FlashAtt...

2023-11-30 talkingdev

科学家们开发出一种新方法，使用生成扩散技术创建代理数据集，这种数据集具有更好的代表性和更多样化，同时需要的计算资源更少。这种方法可以通过在代理数据集中训练神经网络来提高模型的性能。这种方法可以降低计算...

2023-11-28 talkingdev

本文介绍了一种名为 ZipLoRA 的技术，该技术可以将多个低秩学习矩阵（LoRAs）合并在一起，从而改善模型性能。相比于常规的微调，LoRAs 更加经济实惠，但是也会改变模型的行为。本文提出的 ZipLoRA 技术可以在保留每...